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摘要 


统计 独立 性 是 统计 学 和 机 器 学 习 领 域 的 基础 性 概念 ， 如 何 表示 和 度量 统计 
独立 性 是 该 领域 的 基本 问题 。Copula 理论 提供 了 统计 相关 关系 表示 的 理论 
工具 ， 而 Copula 业 理 论 则 给 出 了 度量 统计 独立 性 的 概念 工具 。 本 文 综述 了 
Copula 彤 的 理论 和 应 用 ， 概 述 了 其 基本 概念 定义 、 定 理 和 性 质 ， 以 及 估计 
方法 。 介绍 了 Copula 炉 研 究 的 最 新 进展 ， 包 括 其 在 统计 学 的 十 个 基本 问题 
(结构 学 习 、 关 联 发 现 、 变 量 选择 、 因 果 发 现 、 系 统 辨 识 、 时 延 佑 计 、 域 自 适 
应 、 正 态 性 检验 、 双 样本 检验 和 变 点 检测 等 ) 上 的 理论 应 用 。 讨 论 了 理论 应 
用 之 间 的 联系 ， 以 及 其 对 应 的 深层 次 的 相关 性 和 因果 性 概念 之 间 的 联系 ， 
将 Copula HIW (条件) 独立 性 度量 框架 与 基于 核 函数 和 距离 相关 的 同类 杠 
架 进 行 了 理论 对 比 。 通 过 仿真 和 实际 数据 实验 评估 验证 了 Copula 4877354 
系 相 对 于 同类 方法 的 实际 优越 性 。 简 述 了 Copula MEMEHA., AA 
理学 、 地 球 物理 学 、 理 论 化 学 、 化 学 信息 学 、 材 料 学、 水 文学 、 气 候 学 、 气 
象 学 、 环 境 学 、 生 态 学、 动物 形态 学 、 农 学 、 认 知 神经 学 、 运 动 神经 学 、 计 
神经 学 、 心 理学 、 系 统 生 物 学 、 生 物 信息 学 、 临 床 诊断 学 、 老 年 医 

神 病 学 、 公 共 卫 生 学 、 经 济 学 、 管 理学 、 社 会 学 、 教 育 学 、 计 算 语言 学 、 新 
闻 传 播 学 、 法 学 、 政 治学 、 军 事 学 、 情 报 学 ， 以 及 能 源 工 程 、 食 品 工程 、 土 
木 建筑 、 交 通 运输 、 制 造 工程 、 可 靠 性 工程 、 治 金工 程 、 化 学 工程 、 航 空 航 
天 、 兵 器 工程 、 车 辆 工程 、 电 子 工程 、 通 信 工 程 、 高 性 能 计算 、 信 息 安 全 、 测 
绘 遥 感 、 海 详 工程 和 金融 工程 等 领域 的 实际 应 用 。 
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Abstract 


Statistical independence is a core concept in statistics and machine learn- 
ing. Representing and measuring independence are of fundamental impor- 
tance in related fields. Copula theory provides the tool for representing 
statistical independence, while Copula Entropy (CE) presents the tool 
for measuring statistical independence. This paper first introduces the 
theory of CE, including its definition, theorem, properties, and estima- 
tion method. The theoretical applications of CE to structure learning, 
association discovery, variable selection, causal discovery, system identi- 
fication, time lag estimation, domain adaptation, multivariate normality 
test, two-sample test, and change point detection are reviewed. The re- 
lationships between the theoretical applications and their connection to 
correlation and causality are discussed. The frameworks based on CE, 
the kernel method, and distance correlation for measuring statistical in- 
dependence and conditional independence are compared. The advantage 
of CE based on methods over the other comparable methods is evalu- 
ated with simulated and real data. The applications of CE in theoretical 
physics, astrophysics, geophysics, theoretical chemistry, cheminformat- 
ics, materials science, hydrology, climatology, meteorology, environmental 
science, ecology, animal morphology, agronomy, cognitive neuroscience, 
motor neuroscience, computational neuroscience, psychology, system bi- 
ology, bioinformatics, clinical diagnostics, geriatrics, psychiatry, public 
health, economics, management, sociology, pedagogy, computational lin- 
guistics, mass media, law, political science, military science, informatics, 
energy, food engineering, architecture, civil engineering, transportation, 
manufacturing, reliability, metallurgy, chemical engineering, aeronautics 
and astronautics, weapon, automobile, electronics, communication, high 
performance computing, cybersecurity, remote sensing, ocean, and finance 


are briefly introduced. 


Keywords: copula entropy; transfer entropy; correlation; causality; struc- 
ture learning; association discovery; variable selection; causal discovery; 
system identification; time lag estimation; domain adaptation; normality 
test; two-sample test; change point detection; benchmarking; interdisci- 
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1 引言 


统计 独立 性 是 统计 学 和 机 器 学 习 领 域 的 基础 必 
独立 性 是 统计 学 的 基本 问题 。 在 统计 学 早期 的 
相关 系数 的 概念 来 度量 统计 独立 性 ， 并 应 用 于 
关 性 的 研究 中 Copu 
联 关系 的 理论 工具 B| 
的 关联 关系 都 对 应 着 一 个 用 于 表 
函数 表示 了 多 变量 之 间 全 部 的 关联 关系 ， 


|— i 
FRI 


且 与 单个 


la 函数 理论 被 提出 ， 提 供 一 种 统一 
图 .根据 Sklar 定理 册 ， 通 俗 地 讲 ， 任 何 一 个 多 变量 之 间 
示 这 种 关系 的 函数 ， 称 为 Copula 函数 。Copula 
E 质 是 无 关 的 。 


概念 ， 如 何 


变量 的 公 


AS 


表示 随机 变 


示 和 度量 统计 


= 


FH 


19 世纪 , 就 有 Pearson [il] 提出 了 
优生 学 的 研究 。 上 个 世纪 , 在 对 相 


之 间 统 计 关 


2008 年 , 马 健 和 和 孙 增 折 提出 了 Copula fif (Copula Entropy: CE) 的 概念 问 。 
CE 的 概念 由 Copula 密度 函数 定义 而 来 ， 本 质 上 是 一 种 香农 彤 的 形式 。 我 们 也 
证 明了 它 与 信息 论 6) 中 的 互信 息 概念 是 等 价 的 。 事实 上 ，CE 的 提出 是 受到 了 
这 样 的 启发 ，Copula 函数 被 认为 包含 了 全 部 的 关联 关系 ， 而 互信 息 一 直 被 认为 


= 
里 


度 
这 种 必然 联系 的 研究 的 结 
CE 是 一 种 多 变量 之 间 关 联 关 系 度 


E, 
E 


了 全 部 的 关联 关系 的 信息 ， 那 么 我 们 认为 这 二 者 之 间 必 然 有 某 种 联系 。 对 
i 果 ， 就 是 提出 了 CE 的 理论 。 
的 理论 , 与 关联 关系 表示 理论 


Cop- 


ula 函数 理论 相对 应 。Copula 函数 表示 关联 关系 , 而 由 之 得 到 的 CE 度量 了 关系 


E. CE 是 一 个 理想 的 统计 独立 性 度量 的 


WS, E 


4) TN 


中 的 信息 量 
包括 对 称 性 、 非 正 性 、 单 调 变换 不 变性 、 以 及 在 高 


有 很 多 优美 的 属 怕 
斯 变量 时 与 相关 系数 等 价 等 。 


L 


CE 是 一 种 理想 的 统计 相关 性 度量 工具 , 同时 它 又 可 以 月 
E (Conditional Independence: CI). 
tT CE 的 (条 件 ) 独立 性 度量 理论 框架 ， 将 相关 性 和 因果 


个 重要 的 统计 学 概念 一 一 条 件 独立 忆 
我 们 就 得 到 了 一 个 
性 这 两 个 基本 概念 统一 起 来 。 

CE 是 一 个 基础 性 的 统计 工具 ， 可 
们 在 2008 年 就 将 其 应 用 到 结构 学 习 问 
关系 结构 。 最 近 ， 我 们 又 先后 将 其 应 月 
3 [10]. s rx [i]. TEA 


¿DN 


DAA 
aE, 有 


本 检验 [L5] 和 变 点 检测 [LO] 等 问题 上 ， 都 取得 了 良好 的 应 月 
于 CE 理论 的 统计 学 方法 论 体系 ， 包 括 独立 局 
检验 、 双 样本 检验 和 变 点 检测 等 方法 。 在 统 


我 们 由 此 提出 了 
条 件 独 立 性 检验 、 多 元 正 态 怕 


个 


日 来 表示 和 度量 男 一 


来 解决 多 个 统计 学 的 基本 问题 。 我 
来 学 习 统计 变量 之 间 的 关联 
到 关联 发 现 赔 、 变 量 选 择 D|. ARH 
检验 LQ]. mætar [13]. BSE Bd. W 
pes 


E 检 验 、 


十 学 领 


域 已 有 针对 这 些 问题 的 大 量 同类 方法 ， 而 CE 方法 由 于 具有 坚实 的 理论 基础 和 


非 参数 的 估计 算法 ， 较 已 有 方法 
性 能 , 我 们 调研 
证 了 CE 方法 体系 性 能 上 的 优越 性 。 


RAINE ERRA. HTH 
了 以 上 五 大 方法 的 同类 方法 , 设计 了 仿真 对 比 实验 hh, Some 


Fii CE 方法 的 实际 


作为 一 种 基础 性 的 数据 分 析 工 具 ，CE 被 提出 以 来 ,在 各 个 不 同学 科 领 域 都 


得 到 了 实际 应 月 


,包括 理论 物理 学 几 晤 、 天 体 物理 学 [19] 、 地球 物理 学 po. sie 


化 学 Pal. eee 四、 材料 学 e]. oko BA 65 加、 气候 学 Bilbo]. 42 


. 生态 学 此 中 、 动 物 形态 学 bhej. zæ o3 可、 


2 COPULA à 


认 知 神经 学 (od r3] . aama rd pg]. 计算 神经 学 上 ggq 、 心 理学 Ri). z 


H 


sans bind. 生物 信息 学 
ww botod Ra 

m 教育 学 huh. 计算 语 
id ir 


(135,136). ae odis: 


AE 


4 [I BA [7o]. i 
等 。 dud CE 被 用 
性 ， 用 以 增加 对 数据 中 变量 
不 仅 为 各 种 应 月 


在 以 上 实际 应 月 
方法 6]. Gems 
Information) 估计 m 


类 算法 kbA. FREESI 


建 gb 和 j、 信息 增强 生成 式 对 抗 补 全 网 络 (IEGAIN 
zii fodhad. LINGAM- 


z 


卫生 学 (62, 
s. [16]. 、 情 报 学 Bi, HE dog i3 pis 134). 


p ET 化 
E o 上 6 引 、 enm E 
us i en 
v 
间 统计 关系 的 理解 ， 或 者 有 
提供 了 理论 支撑 和 方法 工具 ， 同 时 也 改进 了 计算 的 可 靠 


Bp. 研究 者 也 提出 了 一 些 
(Information Bottleneck) 计算 RA. 独特 信息 
非 对 称 互信 


B| ee 
TENE: os io. 
et ee [13]. wee hid. 8 
食品 工 
sae | 、 制 造 工程 43 [ag]. wr 
rin lodi € m 1594163]. 
meer 
ELE [72] 和 eee Il] 
DA EE 
有 于 建立 和 评价 模型 。CE 
生 和 效 


m 


` 


T CE 理论 的 新 方法 , 如 GCMI 


(Unique 
图 结构 相似 度 计算 (6). E 
odo、 图 神经 网 络 构 
[58]. 因果 压缩 B. 因果 
hg. = 参数 估计 [a6] . WE Copula 


息 估计 bA. 
上 5 入 、 决 策 树 构建 


— 


结构 选择 [78 sq) . Survival CE [02 . CE? [170 、 和 Copula Extropy 


4$, CE 作为 AT 


的 理论 方法 ， BET a 
基本 数学 概念 工具 ， 为 更 多 新 方法 论 的 派 4 


E 和 因果 性 的 普 适 性 


E 提 供 T 可 能 


本 文 第 四 部 分 介绍 Copula MIEREN, Bla CE 在 统计 
学 中 的 理论 应 用 ， 用 于 解决 统计 学 的 十 个 基本 问题 ， 第 部 分 讨论 三 个 相关 的 问 


题 ， 第 加 部 分 将 基于 


CE 的 5 种 方法 与 各 自 的 同类 方法 进行 对 比 记 


fi, al 


magus CE 在 各 个 不 同学 科 领 域 中 的 实际 


2 


2.1 理论 


Copula 理论 是 关于 多 随机 变 
定义 一 类 函数 ， 成 为 Copula 函数 
定义 1 (Copula 函数 ) 
T X 的 边缘 分 布 函 数 u, = 


给 定 N ? 


量 之 间 相 互 依赖 关系 表 


Fi(zi),i —1,.. 


J, AO MO CURT RAE 


应 月 


Copula Jš 


示 的 理论 BB]. 此 理论 
， 定 义 如 下 : 


全 随机 向 量 X = 


(Xi... Xn) ERX. + u Á 
,N. W| X 3] N 4 Copula 函数 


C: IN S LI = |0,1] 需要 满足 如 下 性 质 


1. C 的 下 确 界 为 0 且 在 单位 立 


2. C(1,...,1,us,1,...,1) = u 


方 体内 的 任意 子 立方 体内 单调 递增 ; 


2 COPULA à 8 


直观 的 理解 ，Copula 函数 就 是 在 单位 N 立方 体 上 的 分 布 函数 , 边缘 分 布 为 均匀 
分 布 , 下 确 界 为 0， 且 在 任意 向 上 方向 上 单调 增加 。 从 Copula 函数 出 发 ， 对 各 
变量 求 导 ， 可 以 很 容易 地 定义 与 之 相对 应 的 Copula 密度 函数 cu). 

Copula 理论 的 核心 结论 是 Sklar 定理 ， 给 出 了 如 何 利 用 Copula 函数 表示 
随机 变量 依赖 关系 的 结论 ， 如 下 : 


定理 1 (Sklar 定理 ) 给 定 任意 N 维 随机 变量 X 的 联合 分 布 函数 F(X). 
iR RH FX; Copula 函数 C (u ^ JU & 4 78 BT AG AH AA 
边缘 分 布 函数 的 Copula 函数 的 形式 ， 如 下 


F(x) = C(Fi(z1),...,Fw(2tw))- (1) 


Copula 函数 的 表示 将 多 变量 的 联合 分 布 与 单个 变量 的 联合 分 布 分 离开 来 ， 将 依 
赖 关系 表示 为 一 个 Copula 函数 。 因 此 ， 依 赖 关 系 与 单个 变量 的 属性 是 没有 关系 
的 ，Copula 函数 中 包含 了 全 部 的 依赖 关系 信息 。 对 式 遇 两 边 求 导 ， 就 得 到 相应 
的 Sklar 定理 的 密度 函数 版 本 : 


= eu) J] p). (2) 


HB. pC) 表示 概率 密度 函数 。 
利用 Copula 密度 函数 的 表示 ， 我 们 就 可 以 定义 Copula i, "ITF: 


定义 2 (Copula Jš) B) 2 台 定 多 随机 变量 X, REWARD uds Copula 密度 
函数 c(u), W) Copula WELA: 


= 


H.(x) = — / c(u) log c(u)du. (3) 


u 


在 信息 论 中 , 互信 息 (Mutual Information: MI) UI DIE SLAB I] BAR 
& B. 在 文献 B. 我 们 证 明了 二 者 本 质 上 是 相同 的 ， 也 即 是 ，MI 等 价 于 负 
J CB， 也 可 以 表示 成 粹 的 形式 。 定 理 如 下 : 
理 2 


多 随机 变量 的 MI 等 价 于 其 负 的 CE. 


Ed 


By 


I(x) = —H,(x). (4) 


rE FLUE RAR AA. hE pA BSS AR ARF. RMA CE 之 间 
关系 的 推论 ， 如 下 : 


推论 1 2 HUE ARA T iHe CE 的 和 。 


- > H(zi) + H.(x). (5) 


以 上 结论 通过 CE 的 定义 ， 加 深 phe elias 本 概念 及 其 之 间 关 系 的 了 解 ， 
也 因此 在 Copula 理论 和 信息 论 之 间架 一 座 桥梁 


2 COPULA à 


2.2 人 性质 
WEE 由 Copula 


理论 得 到 的 CE 具有 很 多 有 趣 的 性 质 。 首 先 从 定义 来 看 ，CE 


是 一 种 特殊 的 香农 炉 ， 定 义 在 单位 体 的 概率 分 布 函数 上 ， 因 此 其 也 具有 香农 炳 


具有 的 连续 性 、 对 称 性 和 可 加 性 等 特性 。 


多 变量 香农 的 MI 定义 针对 的 是 二 变量 情况 ， 但 CE 概念 不 限于 二 变量 的 情 
况 ， 也 适用 于 多 变量 的 情况 ， 且 多 变量 之 间 具 有 对 称 性 ， 扩展 了 MI 的 定义 和 适 


用 范围 。 


全 阶 次 ”由 Copula 密度 函数 而 定义 的 CE 从 一 个 新 的 角度 给 出 了 对 MI 概念 更 
深入 的 理解 。Copula 函数 被 认为 是 包含 了 随机 变量 之 间 所 有 相关 性 的 信息 ， 那 


4 CE 作为 相关 中 


生 的 随机 性 的 度量 ， 就 等 于 给 出 了 随机 变量 之 间 所 有 阶 次 相关 


性 的 信息 量 。 


数 定义 的 CE 天 然 地 继承 了 这 一 不 变性 特性 。 


边缘 困 数 无 关 | 


由 于 Copula 函数 具有 单调 变换 不 变性 ， 因 此 基于 Copula K 


F 面 提 到 ，Copula 理论 将 联合 分 布 分 解 为 边缘 函数 和 Copula 


函数 两 个 相对 独立 的 部 分 ， 这 也 对 应 到 联合 依 的 分 解 : GEL EC DE Ge a BT 
DFR AAA CE 两 个 相互 无 关 的 部 分 。 而 MI 与 CE 等 价 ， 因 此 
MI (CE) 只 与 Copula 函数 有 关 ， 与 边缘 函数 无 关 、 联 合 函 数 无 关 ， 这 与 香农 


于 边缘 函数 和 联合 函数 的 MI 定义 构成 了 显著 的 理论 区 别 。 


非 正 性 ”需要 指出 的 是 ，CE 本 身 是 非 正 的 ， 当 多 变量 之 间 是 独立 的 时 候 ，CE 
等 于 0。 它 表明 了 由 于 多 变量 之 间 具 有 相关 性 ， 使 得 多 变量 之 间 相 互 包含 有 其 他 


变量 的 信息 ， 因 此 就 使 得 联合 灼 总 信息 量 减 少 ， 表 现 为 联合 依 小 于 各 个 变量 
HURRAM. 一 般 地 讲 , MEE TEEDE E, EAW; 而 CE 则 
是 非 正 的 ， 因 为 它 度量 了 由 于 变量 间 相关 性 导致 减少 的 不 确定 性 。 


等 价 关 系 ” 相 关系 数 是 统计 学 传统 的 相关 性 度量 ， 它 隐 含 着 分 布 高 斯 性 的 假设 。 


可 以 很 容易 证 明 ， 


在 高 斯 分 布 的 情况 下 ， 相 关系 数 与 CE 具有 数学 上 的 等 价 关 


£, BCE 可 以 由 相关 系数 矩阵 来 表示 。 


2.3 fhilJjiX 


MI 作为 信息 


论 的 基本 概念 ， 具 有 广泛 的 应 用 价值 。 但 学 界 普遍 认为 MI 的 


估计 是 十 分 困难 的 。 我 们 根据 定理 2,， 给 出 了 一 个 简单 且 优 雅 的 非 参数 CE (MI) 
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估计 方 泄 目 加 。 该 方法 仅 需 如 下 2 步 : 
1. 估计 经 验 Copula 密度 函数 ; 
2. 由 经 验 Copula 密度 函数 估计 CE. 


给 定 随 机 变量 X 的 一 组 独立 同 分 布 样本 1... ar}, 可 以 很 容易 地 通过 次 序 
统计 量 (rank) 来 估计 经 验 Copula 密度 函数 ， 如 下 


PM 
Fi(zi) = ae 1(z < zi), (6) 


其 中 10) 表示 示 性 函数 。 

在 得 到 经 验 Copula 密度 函数 后 , 第 2 EEO, AREN 
法 可 以 采用 。 我 们 采用 了 Kraskov 等 [101] 提出 的 k 近邻 法 来 估计 CE, AWE 
是 一 个 非 参 数 方法 ， 具 有 良好 的 估计 性 能 。 

由 于 在 两 步 中 都 采用 了 非 参数 的 方法 (次序 统 计量 和 k 近邻 法 )， 因 此 ， 我 
们 就 得 到 了 一 个 非 参数 的 CE 估计 方法 。 方 法 简单 ， 易 于 实现 ， 且 计算 量 要 求 
较 低 。 此 方法 是 一 个 典型 的 基于 序数 (rank) 统计 量 的 非 参数 估计 方法 ， 将 CE 
AE B HH AR AR EAT AEP OI, RA 


3 理论 应 用 


3.1 结构 学 习 


从 数据 分 析 一 组 随机 变量 之 间 的 关联 结构 ， 可 以 帮助 我 们 了 解 系统 内 部 的 
内 在 结构 关联 性 ， 具 有 重要 的 应 用 价值 。 在 统计 和 机 器 学 习 学 习 中 , 表示 这 种 关 
联结 构 的 主要 工具 方法 是 图 (Graph), ， 图 中 的 顶点 表示 随机 变量 ， 顶 点 之 间 的 
边 表示 变量 之 间 的 关联 ， 边 的 权重 表示 关联 的 强度 。 图 又 分 为 有 向 图 和 无 向 图 ， 
前 者 的 边 具 有 方向 而 后 者 则 无 方向 ， 前 者 表示 变量 之 间 的 因果 关系 而 后 者 表示 
关联 关系 。 从 数据 中 学 习 这 种 关联 图 结构 的 问题 ， 被 称 为 结构 学 习 (Structure 
Learning ) 。 
结构 学 习 的 算法 很 多 ， 其 中 比较 著名 的 有 Chow-Liu 的 图 结构 学 习 方法 
.该 方法 通过 学 习 变量 的 互信 息 矩 阵 ,再 基于 矩阵 学 习 最 小 生成 树 (Minimal- 
Spanning-Tree: MST) 来 得 到 主要 关联 结构 的 骨架 。 
利用 互信 息 和 CE 的 等 价 性 ， 我 们 给 出 了 Chow-Liu 算法 的 CE 版 本 P, 
包含 两 步 : 


1. 利用 CE 合计 方 法 学 习 得 到 随机 变量 的 关联 矩阵 ; 


1 本 方法 已 经 实现 为 R 和 Python 语言 的 copent 算法 包 199], 已 分 别 在 CRAN 和 PyPI 上 
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2. 再 利用 MST 生成 算法 从 上 述 和 矩阵 得 到 关联 图 结构 。 


由 于 我 们 的 CE 估计 方法 简单 有 效 , 相 较 于 传统 的 互信 息 估计 具有 明显 优势 , 因 


此 也 使 得 Chow-Liu 算法 更 可 靠 有 效 。 


我 们 将 算法 应 用 到 两 个 经 典 的 UCI 机 器 学 习 数 据 集 [Los]: 鲍鱼 生长 数据 


集 和 波士顿 房价 数据 集 。 实 验 结果 显示 ， 算 法 能 够 得 到 具有 可 解释 性 的 关联 结 


构 ， 使 我 们 对 数据 反映 的 鲍鱼 生长 特性 和 波士顿 房价 相关 因素 的 内 在 关系 有 了 
更 深入 的 理解 。 


3.2 ”关联 发 现 


对 象 系统 的 科学 结论 。 关 联 的 概念 是 多 元 统计 分 析 的 基本 工具 之 一 。 它 度量 


经 验 科 学 是 分 析 数 据 的 学 问 。 通 过 分 析 收 集 的 观察 或 经 验 数据 ， 人 们 得 出 


随机 变量 之 间 的 统计 性 内 在 联系 ， 进 而 被 赋予 科学 意义 。 发 现 关 联 关系 是 科学 
研究 的 主要 内 容 方法 之 一 。 


Pearson 相关 系数 [l] 是 一 种 统计 学 史上 重要 的 相关 性 度量 概念 教科书 里 


都 会 讲 到 , 应 用 也 很 广泛 。 但 由 于 它 是 统计 学 早期 提出 的 概念 , 因此 具有 很 多 局 
限 性 。 从 理论 上 来 讲 ， 它 只 适用 于 线性 相关 关系 的 情况 ， 隐 含 着 高 斯 分 布 的 假 


W, 使 它 在 绝 大 多 数 实际 情况 中 都 不 适用 。 它 是 一 个 二 变量 的 度量 , 没有 多 变量 


的 版 本 。 


CE 则 是 一 种 更 高 级 的 相关 性 度量 , 相对 于 Pearson 相关 系数 具有 显著 的 优 


势 。 它 没有 线性 和 高 斯 性 的 假设 ， 且 是 一 个 多 变量 的 相关 性 度量 。 实 际 上 ，CE 
度量 的 是 统计 独立 性 ， 比 相关 性 更 宽泛 的 概念 ， 在 统计 独立 的 情况 下 ， 其 为 0。 
CE 还 具有 单调 变换 不 变性 ， 且 在 高 斯 分 布 的 情况 下 ， 与 相关 系数 等 价 。 简 单列 
一 下 CE 作为 相关 性 度量 的 优点 : 


。 无 模型 假设 ， 

。 可 处 理 非 线性 关系 ， 
统计 独立 性 度量 ， 
单调 变换 不 变性 ， 
。 在 高 斯 情况 下 与 相关 系数 等 价 。 


综合 了 如 此 多 优点 ，CE 是 一 个 完美 的 相关 性 度量 ， 完 全 可 以 替代 Pearson 相关 
系数 ,适用 于 任何 类 型 的 相关 性 度量 。Pearson 相关 系数 作为 一 个 历史 悠久 的 统 
计 工 具 ， 可 以 进入 历史 了 。 


H 


关于 CE 与 Pearson 相关 系数 的 理论 上 的 对 比 ， 可 参见 论文 H. 1632821 
上 著名 的 NHANES 医学 体检 数据 [194]. MSO LIEW T. CE 的 显著 优越 性 目 


2 实验 代码 : https://github.com/majianthu/dse 
3 实验 代码 : https://github.com/majianthu/nhane 
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3.3 ”变量 选择 

变量 选择 (Variable Selection) ， 又 称 特征 选择 ， 是 统计 和 机 器 学 习 的 基本 
问题 L959 。 当 人 们 试图 从 一 组 自 变量 和 目标 预测 变量 之 间 建 立 函数 关系 时 ， 
往往 希望 只 选择 真正 与 目标 变量 有 内 在 联系 的 自 变 量子 集 作 为 函数 模型 的 输入 ， 
以 提高 模型 的 科学 性 (或 可 解释 性 ) ， 同 时 降低 模型 的 复杂 度 。 这 样 的 问题 称 为 
变量 选择 。 在 统计 和 机 器 学 习 中 ， 变 量 选择 主要 用 于 多 元 分 类 或 回归 分 析 中 建 
立 的 函数 模型 关系 。 

传统 的 变量 选择 方法 很 多 , 主要 的 有 准则 法 、 模 型 正则 化 方法 和 关联 度量 
法 。 主 要 的 准则 法 有 AIC [197] 和 BIC [198] 等 ， 通 过 在 似 然 函 数 上 加 上 对 模型 
复杂 度 的 惩罚 项 得 到 。 模 型 正则 化 方法 主要 用 于 广义 线性 回归 模型 在 学 习 模 型 
的 过 程 中 , 通过 在 似 然 函数 上 加 上 模型 参数 (线性 系数 ) 的 1 范 数 或 2 范 数 或 二 
者 的 组 合 得 到 , 经 典 的 方法 包括 LASSO [199]. 岭 回 归 (Ridge Regression) [200] 
和 弹性 网 络 (Elastic Net) [poi] 等 。 以 上 两 类 方法 都 是 基于 似 然 函 数 加 惩罚 项 
的 形式 完成 变量 选择 ， 都 是 模型 有 关 的 。 关 联 度量 的 方法 则 是 通过 自 变量 和 有 目 
标 变量 之 间 的 关联 强度 来 选择 变量 ， 通 常 是 模型 无 关 的 。 主 要 的 关联 关系 度量 
包括 传统 的 Pearson 相关 系数 , 但 线性 关系 ， 仅 适用 于 线性 模型 。 其 
它 几 个 主要 的 非 线性 关联 度量 也 都 被 应 用 到 变量 选择 问题 上 ， 包 括 希 尔 伯 特 - 施 
密 特 独立 性 准则 (Hilbert-Schmidt Independence Criterion: HSIC) 202,203] 4 
距离 相关 (Distance Correlation: DC) p04) bos] 等 。 

变量 选择 问题 ,推荐 CE 方法 ,不 建议 LASSO 或 者 p-value 等 传统 统计 方 
法 。 本 方法 利用 CE 度量 自 变量 和 目标 变量 之 间 的 关联 强度 ， 根 据 强度 从 大 到 
小 依次 选择 变量 。 在 变量 选择 问题 上 ，CE 已 被 真实 数据 实验 证 明 优 于 以 下 主流 
变量 选择 方法 : 


e LASSO / Ridge Regression / Elastic Net [199-bo1], 

- AIC / BIC [197] [i98 

Adaptive LASSO [206), 

。 Hilbert-Schimdt Independence Criterion (HSIC) (202, bos}, 
e Distance Correlation [po4 bos], 

Heller-Heller-Gorfine Tests of Independence poh, 
Hoeffding’s D test bog, 


。 Bergsma-Dassios T* sign covariance [209]. 


nr 
N 

= 
Tv 
R 
El 


Ball correlation [210] , 
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实验 采用 了 著名 的 UCT 心脏 病 数据 集 也 93 引 ,将 CE 方法 与 以 上 方法 进行 对 比 。 
该 数据 集 包含 了 来 自 世界 4 地 的 病人 临床 生理 测量 数据 和 诊断 结果 ， 用 来 研究 
如 何 从 生理 特征 预测 心脏 病 诊断 结果 。 其 中 部 分 临床 特征 已 被 专家 认定 为 是 疾 
病 相关 特征 , 这 就 为 验证 变量 选择 方法 提供 了 一 个 参照 标准 。 实验 结果 表明 , 与 
其 他 方法 相 比 ，CE 方法 选择 出 了 最 多 的 疾病 相关 特征 ， 在 预测 性 和 可 解释 性 上 
优势 明显 。 部 分 对 比 结果 见 图 四 

CE 为 变量 选择 问题 提供 了 统一 的 理论 框架 。 它 具有 以 下 优点 : 


。 模 型 无 关 ， 
数学 理论 坚实 ， 
。 物 理 上 可 解释 ， 
， 具 有 非 参数 估计 算法 ， 不 做 理论 假设 
几乎 不 需要 调 参 。 


该 方法 做 变量 选择 是 模型 无 关 的 ， 这 是 与 基于 似 然 函 数 的 方法 相 比 ， 方 法 
无 需 考虑 模型 及 其 复杂 度 等 因素 ， 具 有 明显 的 普 适 性 优势 。 作 为 一 种 关联 度量 
TE, CE 与 其 他 度量 工具 相 比 定义 更 坚实 ， 具有 很 多 理想 的 独立 性 度量 公理 属 
性 ， 因 此 也 就 具有 了 明显 的 理论 优势 。 另 外 ， 业 是 一 种 物理 意义 明确 的 数学 概 
念 ，CE 可 被 认为 是 从 自 变 量 到 目标 变量 的 函数 关系 包含 的 信息 量 ， 因 此 很 容易 
从 物理 上 理解 和 解释 得 到 的 模型 。 在 方法 实现 上 ，CE 的 估计 方法 基于 序数 统计 
量 ， 是 非 参数 的 ， 不 做 任何 理论 假设 ， 充 分 发 挥 了 其 理论 优势 。 同 时 ， 其 估计 方 
具有 良好 的 渐 近 稳定 性 ， 且 几乎 不 需要 调 参 ,与 LASSO 等 结果 严重 依赖 超 
参数 选择 的 方法 形成 了 鲜明 对 比 。 总 之 ， 该 方法 具有 理论 和 计算 上 的 明显 优势 ， 
变量 选择 问题 变 成 了 一 种 科学 ， 而 不 像 LASSO 等 方法 是 一 门 艺术 。 
生存 分 析 (Survival Analysis) 是 一 类 特殊 的 回归 问题 ， 其 预测 目标 是 事件 
发 生 时 间 (time-to-event)， 也 即 是 未 来 某 一 事件 发 生 所 需要 的 时 间 。 这 类 问题 
的 特殊 性 还 在 于 一 种 删 失 (Censoring) 机 制 ， 用 于 当 某 一 事件 在 观察 期 未 发 生 
时 的 处 理 。 生 存 分 析 在 医学 、 可 靠 性 和 社会 科学 等 领域 具有 广泛 的 应 用 。 建 立 
生存 分 析 模 型 也 需要 进行 变量 选择 ， 用 于 筛选 与 事件 发 生 时 间 相 关 的 变量 。 马 
健 bg 提出 将 CE 的 变量 选择 方法 应 用 于 此 类 问题 ， 通 过 计算 变量 与 事件 发 生 
时 间 之 间 的 CE 来 选择 变量 。 他 将 方法 应 用 于 两 个 公开 的 肺癌 数据 ， 与 常用 的 
随机 生存 森林 (Random Survival Forest) 和 Lasso-Cox 两 种 方法 进行 了 对 比 ， 
发 现 该 方法 能 够 在 保证 模型 可 解释 性 的 同时 获得 更 好 的 预测 性 能 ， 验 证 了 方法 
的 优越 性 目 
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3.4 因果 发 现 


因果 关系 普遍 存在 于 自然 界 当 中 ， 发 现 因果 关系 是 各 门 科 学 的 主要 命题 之 
一 。 从 一 组 随机 变量 的 时 序 观 测 中 发 现 变量 之 间 的 因果 关系 ， 被 称 为 因果 发 现 
(Causal Discovery) 问题 ， 是 统计 学 中 时 间 序列 分 析 的 经 典 问题 。 时 序 因果 关系 
发 现 方法 在 不 同学 科 领 域 都 有 重要 应 用 价值 。 

如 何 度量 因果 关系 是 因果 发 现 问题 解决 的 基础 。 控 制 论 学 者 维 纳 提出 了 一 
种 因果 关系 的 哲学 概念 ， 表 述 为 因 必须 有 助 于 改善 果 的 预测 Puj. EKSH 
础 上 , 格 兰 杰 提 出 了 著名 的 格 兰 杰 因果 关系 (Granger Causality: GC) 检验 [212] 
.GC 检验 是 经 典 的 因果 发 现 工具 ,但 它 只 适用 于 高 斯 的 情况 ,Schreiber [214] 
定义 了 用 于 发 现 稳 态 时 序 包 含 的 因果 关系 的 传递 闹 (Transfer Entropy: TE) fff 
念 .TE 是 GC 的 非 线性 推广 , 等 价 于 信息 论 的 条 件 互信 息 (Conditional Mutual 
Information: CMI) ， 本 质 上 是 检验 条 件 独 立 性 (Conditional Independence) , 
是 模型 无 关 的 ， 因 此 适用 于 任何 情况 的 因果 关系 检验 。TE 作为 广泛 采用 的 因果 
关系 度量 ， 较 之 其 他 经 验 式 带 有 模型 假设 的 传统 因果 关系 推断 方法 更 科学 合理 ， 
具有 更 广泛 的 普 适 性 。 

CE 是 统计 独立 性 度量 , 而 TE 是 条 件 独立 性 度量 。 我 们 证 明了 二 者 之 间 在 
数学 上 有 着 本 质 上 的 内 在 理论 联系 用 )。 通过 并 不 复杂 的 数学 变换 ,可 以 很 容易 
证 明 , TE 可 以 表示 为 只 包含 CE 的 数学 形式 。 这 一 数学 表示 形式 为 从 CE 估计 
TE 提供 了 理论 基础 。 


命题 1 TE 可 以 表示 为 仅 包含 CE 的 数学 形式 . 从 Xa) Ya TEM CB 表示 
如 下 : 
TEx y = HY Y) + He(Xi, Yi) — H,.(Y,+1, Yo X1). (7) 


因为 TE 本 质 上 是 条 件 独 立 性 关系 You 由 XY, 的 度量 ， 因 此 全 也 其 实 是 给 
出 了 一 种 条 件 独立 性 的 CE 表示 。 

在 过 去 的 研究 中 ， 因 果 关 系 的 估计 往往 是 在 一 定 的 假设 前 提 下 进行 ， 无 假 
设 前 提 的 因果 关系 估计 被 很 多 研究 者 认为 是 不 可 能 的 。 我们 基于 以 上 TE 的 CE 
表示 形式 ， 利 用 非 参数 的 CE 估计 算法 ， 提 出 了 一 种 简单 优雅 、 易 于 理解 和 实 
现 的 非 参数 TE 估计 方法 [LO]. 这样， 不 带 任何 假设 条 件 的 因果 关系 发 现 就 成 
为 了 可 能 。 此 估计 方法 包含 简单 的 两 步 : 


1. 利用 非 参 数 CE HUI, Hirst) ew 3 个 CE 子 项 ; 
2. 由 3 个 CE 估计 值 计 算得 到 TE. 


为 了 验证 提出 的 非 参 数 TE 倍 计 方法 ， 我 们 将 该 方法 应 用 于 大 气 污染 问题 
中 的 因果 发 现 , 研究 了 北京 地 区 气象 因素 和 PM2.5 之 间 的 因果 关系 四. 实验 采用 


6 此 方法 已 在 R 和 Python 语言 的 copent 包 [190] 中 实现 。 
7 实验 代码 : https://github.com/majianthu/transferentrop 
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T UCT 机 器 学 习 数据 集 仓 库 中 的 北京 PM2.5 数据 P15], AT ALR 2010 
至 2014 年 之 间 的 每 小 时 的 连续 气象 观测 数据 和 PM2.5 观测 数据 。 我 们 的 分 
析 选 择 其 中 一 段 无 缺失 值 的 连续 时 间 数 据 记 录 ， 利 用 上 述 方法 很 容易 就 可 以 佑 
计 出 气象 因素 对 1 至 24 小 时 后 PM2.5 浓度 的 影响 程度 。 利 用 上 述 估计 方法 
不 是 无 条 件 的 ， 我 们 默认 假设 了 时 序 是 稳 态 的 ， 也 假设 了 时 间 段 之 间 的 马尔 科 
夫 性 , 也 就 是 不 相 邻 的 时 间 段 之 间 无 关 。 对 24 小 时 内 灌 后 因果 关系 的 分 析 发 现 ， 
温度 、 湿 度 、 压 力 等 气象 因素 对 PM2.5 的 形成 的 因果 关系 是 一 个 由 迅速 增加 到 
缓慢 增强 的 过 程 。 

同样 在 上 述 实验 数据 的 基础 上 ， 我 们 将 提出 的 TE 合计 方法 与 男 外 两 种 条 
件 独立 性 度量 进行 了 对 比 实验 , 估计 从 气象 因素 到 PM2.5 的 因果 关系 24 小 时 走 
势 。 这 两 种 度量 分 别 是 基于 核 函 数 的 条 件 独 立 性 度量 (Kernel-based Conditional 
Independence: KCI) 216 和 条 件 距 离 相 关 (Conditional Distance Correlation: 
CDC) [217]. 论文 通过 将 用 CE 估计 TE 与 其 它 两 种 方法 进行 了 对 比 , 结果 ( 见 
KD) 显示 TE 的 估计 效果 更 好 。 


3.5 ”系统 辨识 


微分 方程 是 描述 动态 系统 的 主要 数学 工具 , 在 不 同学 科 具有 广泛 的 应 用 。 从 
数据 中 学 习 微 分 方程 是 动态 系统 领域 的 一 个 重要 问题 ， 也 称 系统 辨识 或 方程 发 
现 ， 近 年 来 得 到 了 大 量 的 研究 。 

方程 发 现 问 题 通常 可 以 被 当 作 一 个 回归 问题 来 对 待 ， 即 从 数据 学 习 一 组 从 
系统 状态 到 状态 微分 的 回归 方程 。 给 定 一 个 一 般 的 动态 系统 微分 方程 形式 ， 如 
下 : 


Ot e filet) (8) 
其 中 asi = ss N HORRÉDUGISAER, ELLE Si 
从 数据 辨识 f, 需要 确定 该 方程 包含 的 未 知 自 变量 ， 一 旦 自 变 量 确 定 则 方程 的 对 
应 关系 就 知道 了 ， 这 是 典型 的 变量 选择 问题 。 很 多 经 典 回归 模型 方法 被 应 用 到 
此 问题 ， 如 高 斯 过 程 、 基 于 稀 屋 性 的 方法 (如 SINDy)、 核 函数 方法 和 神经 网 络 
等 


马 健 [14] 提出 了 一 种 基于 CE 的 微分 方程 发 现 方法 ， 将 问题 理解 为 变量 选 
择 问 题 ， 利 用 基于 CE 的 变量 选择 方法 解决 了 此 方程 发 现 问 题 。 该 方法 包含 了 
两 个 主要 步骤: 


1. 利用 差分 算 子 近似 计算 状态 变量 的 微分 ; 
2. 计算 状态 微分 和 状态 变量 之 间 的 CE， 根 据 CE 来 选择 方程 的 变量 。 
该 方法 中 的 差分 算 子 可 以 由 以 下 非 参 数 方式 计算 得 到 : 


dx Lt, — Lito 


= 


a= 7 ^s cg 


0.3 


Transfer Entropy 
0.1 


0.0 
1 


-0.1 
1 


lag (hours) 


(a) TE 


Kernel CI 


lag (hours) 


(b) KCI 


CDC 


lag (hours) 


(c) CDC 


2: 由 三 种 因果 关系 度量 估计 的 从 压力 到 PM2.5 的 因果 关系 强度 变化 图 . 
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而 CE 可 以 由 非 参 数 估计 方法 得 到 。 因 此 ， 所 提出 的 方法 是 非 参 数 的 ， 不 做 任 
何 假设 ， 适 用 于 任何 动态 系统 的 辨识 。 

作者 将 方法 应 用 于 经 典 的 3 维 Lorenz 系统 ,系统 中 包含 了 由 一 阶 和 二 阶 的 
状态 变量 组 成 的 3 个 方程 ， 该 方法 成 功 地 从 仿真 数据 中 辨识 出 了 系统 方程 中 状 
态 变量 和 状态 微分 变量 之 间 的 关系 ， 证 明了 方法 的 有 效 性 上 


3.6 ”时 延 估计 


系统 辨识 (System Identification) 是 现代 系统 理论 中 研究 系统 特性 的 重要 
工具 方法 , 主要 是 研究 如 何 从 观测 数据 来 确定 描述 系统 行为 的 模型 及 其 参数 。 时 
延 (Time Lag) 是 一 种 动态 系统 中 普遍 存在 的 特性 ， 指 一 个 变量 作用 于 另 一 个 
变量 需要 的 时 间 。 由 于 物质 、 能 量 或 信息 的 传输 时 间 ， 时 延 存在 于 所 有 物理 、 社 
会 和 生物 系统 中 的 因果 效应 发 生 的 时 间 先 后 关系 上 。 因 此 ， 时 延 参 数 的 估计 是 
重要 的 理论 问题 ， 具 有 广泛 的 应 用 价值 ， 比 如 可 以 用 来 分 析 交 通 系统 中 的 拥堵 
传播 、 太 阳 活 动 对 地 球 系统 的 影响 、 政 策 效应 的 分 析 等 诸多 问题 。 

传统 的 时 延 估计 的 主要 方法 是 基于 时 序 变量 的 自 相 关系 数 ， 但 其 具有 线性 
假设 ， 因 此 作用 范围 十 分 有 限 。 另 一 种 主要 方法 是 时 延 互信 息 (Time-delayed 

MI), 可 以 去 除 线性 假设 的 限制 ,适用 于 具有 非 线性 特性 的 时 序 变 量 。 但 这 两 种 
方法 本 质 上 都 是 对 称 关系 的 度量 ， 而 系统 时 延 由 于 是 因果 关系 的 属性 ， 因 此 是 
非 对 称 的 关系 。TE 作为 一 种 非 对 称 的 因果 关系 度量 ,量化 了 从 因 变 量 到 果 变 量 
作用 关系 的 信息 量 ， 因 而 更 适用 于 估计 因果 时 延 特性 。 

动态 系统 的 时 延 可 以 通过 从 时 序数 据 估 计 TE 统计 量 来 进行 估计 ， 但 传统 
的 TE 估计 问题 被 认为 十 分 困难 。 马 健 [13] 提出 利用 上 述 基 于 CE 的 TE 估计 
方法 来 解决 时 延 估计 问题 ， 先 估计 时 延 窗口 内 的 因 变量 到 果 变 量 的 一 组 TE f, 
再 将 TE 的 最 大 值 对 应 的 时 延 作为 时 延 参 数 的 值 。 由 于 该 TE 估计 器 是 非 参数 
的 ， 因 此 不 对 动态 系统 做 任何 假设 ， 具 有 普 适 性 。 

作者 仿真 了 四 个 具有 不 同 动态 特性 的 时 延 动 态 系统 以 验证 方法 的 有 效 性 
发 现 该 方法 可 以 准确 地 从 系统 的 仿真 数据 中 估计 出 相应 的 时 延 参 数 。 作 者 又 ; 
方法 应 用 于 摩洛哥 缔 头 万 (Tétouan) 城 的 电力 负荷 数据 ， 分 析 五 种 天 气 因素 
该 城 三 个 区 域 电力 负荷 影响 的 时 延 特征 ， 发 现 了 不 同 天 气 因素 对 负荷 产生 影 
的 时 延长 度 ， 以 及 影响 的 每 日 变化 特征 目 


© 


ag HE 


= 


E 


3.7 域 自 适 应 

域 自 适应 (Domain Adaptation: DA) 是 一 类 常见 的 问题 , 是 指 训练 模型 的 
数据 与 应 用 模型 的 数据 的 概率 分 布 不 同时 ， 需 要 让 训练 的 模型 适应 分 布 的 偏 移 
的 情况 。DA 问题 具有 重要 的 现实 意义 。 比 如 ,将 在 一 个 医院 采集 的 数据 上 训练 


8 实验 代码 : https://github.com/majianthu/sysid 
9 实验 代码 : https://github.com/majianthu/timelag 
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好 的 模型 应 用 到 其 他 医院 时 ， 可 能 由 于 数据 采集 设备 的 不 同 导 致 采集 的 数据 发 
生 分 布 偏 移 ， 从 而 导致 模型 性 能 下 降 。 同 样 的 情况 也 会 发 生 在 其 他 领域 (如 社会 
学 ) 的 问题 中 ,比如 由 于 人 群 的 社会 属性 的 不 同 , 由 一 个 人 群 研究 得 到 的 模型 结 
论 在 男 一 个 人 群 上 就 会 发 生 模 型 偏差 。 

基于 CE 的 条 件 独立 性 度量 作为 一 种 基本 的 统计 学 工具 , 可 以 用 于 解决 DA 
问题 。 马 健 [ni] 提出 了 一 种 从 因果 角度 解决 DA 问题 的 方法 。 他 假设 自 变量 X 
到 预测 变量 Y 在 不 同 域 D; 上 的 关系 是 不 变 的 ， 将 数据 分 布 迁移 视 为 一 个 由 外 
在 条 件 变 量 Z 在 D, 上 作用 不 同 导致 的 结果 ， 这 样 DA 问题 就 转化 为 学 习 自 变 
量 X、 预 测 变量 Y 和 外 在 变量 Z 之 间 统 计 关 系 的 问题 ,需要 发 现 X, Y 之 间 不 
变 的 依赖 关系 ， 二 者 的 依赖 关系 以 外 在 变量 为 条 件 ， 即 判断 是 否 


X 4 Y|Z. (10) 


这 时 ， 利 用 基于 CE 的 条 件 独 立 性 测试 就 能 发 现 域 迁移 条 件 2 HGB] X AY 
之 间 不 变 的 因果 关系 ， 从 而 很 好 地 解决 了 DA 问题 。 

作者 设计 了 仿真 实验 验证 了 方法 的 有 效 性 ， 并 将 方法 成 功 应 用 于 社会 学 的 
男女 收入 不 平等 的 社会 原因 分 析 问题 


3.8 正 态 性 检验 


正 态 分 布 是 一 类 非常 重要 的 概率 分 布 函 数 ， 在 所 有 概率 函数 中 居于 中 心地 
位 ， 且 在 实际 问题 中 大 量 存在 。 正 态 性 是 很 多 统计 模型 和 方法 中 的 假设 条 件 ， 
因此 在 应 用 中 检验 分 布 正 态 性 的 方法 成 为 了 一 个 十 分 必要 的 工具 。 正 态 性 检验 
(Normality Test) 是 一 类 检验 分 布 正 态 性 假设 的 假设 检验 方法 ， 分 为 单 变量 和 
多 变量 两 类 。 传统 的 正 态 性 检验 方法 很 多 ， 比 如 基于 和 矩 、 特 征 函 数 、 炉 或 最 优 传 
输 等 概念 工具 的 方法 等 。 

CE 作为 衡量 变量 间 全 阶 次 相关 关系 的 度量 工具 , 也 可 以 用 于 检验 二 阶 相关 
特性 的 正 态 性 检验 问题 。 我 们 都 知道 , Elbise CI EL, 在 二 阶 统 计量 相同 的 情 
况 下 ， 在 所 有 分 布 中 正 态 分 布 的 烂 最 大 。 由 于 正 态 分 布 完 全 由 其 一 阶 和 二 阶 统 
计量 决定 ， 因 此 正 态 分 布 的 CE 中 包含 的 是 二 阶 相关 性 对 应 的 信息 。 可 以 很 容 
DEF, 在 正 态 分 布 的 条 件 下 ，CE 与 二 阶 统 计量 具有 等 价 关 系 。 具 体 地 ， 假 设 
高 斯 随机 向 量 X 的 协 方差 为 Ve MUH CE 与 V, 之 间 存 在 如 下 关系 : 


1 
H.(xn) = z l8 |Vx. (11) 


而 在 非 正 态 分 布 中 , 相关 关系 不 仪 是 二 阶 的 , 也 有 高 阶 的, 因而 CE 包含 的 信息 
除了 二 阶 相关 关系 对 应 的 信息 外 ， 也 有 高 阶 相关 关系 对 应 的 信息 ， 且 非 高 斯 性 
Bum, CE Hi SMH (a ies. RI. Fe eB ae, Mut CE 
度量 了 包括 二 阶 相关 信息 在 内 的 全 部 阶 次 相关 性 信息 。 


10 实 验 代码 : https://github.com/majianthu/cda 
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马 健 [12] 利用 高 斯 分 布 的 CE 与 二 阶 统 计量 之 间 等 价 关 系 提出 了 一 种 多 变 
量 正 态 性 检验 的 方法 ， 通 过 计算 分 布 与 同方 差 的 高 斯 分 布 在 CE 统计 量 的 差 值 
来 衡量 联合 分 布 的 正 态 性 ， 由 此 得 到 的 正 态 性 检验 的 统计 量 定义 为 


Tee = H. (x) = He(xa), (12) 


Joh, x, 是 与 x 具有 相同 方差 的 高 斯 随机 向 量 。 易 知 ， 当 分 布 为 高 斯 分 布 时 
Too = 0; 且 多 元 分 布 的 非 高 斯 性 越 强 ，T。 的 数值 越 大 。 

马 健 同 时 给 出 了 此 统计 量 的 估计 方法 四 ,包括 了 十 分 简单 的 两 部 分 : 式 必 引 的 
第 一 项 可 以 由 CE 的 非 参 数 估计 方法 得 到 ,第 二 项 即 是 式 由 让 的 值 , 可 先 估计 协 
方差 矩阵 再 解析 计算 得 到 。 

作者 设计 了 两 组 仿真 实验 ， 仿 真 了 两 类 非 高 斯 性 的 情况 ， 并 将 此 检验 方法 
与 5 种 经 典 的 同类 方法 进行 了 对 比 ， 证 明了 此 检验 方法 的 有 效 性 和 对 传统 5 种 
经 典 方法 的 优越 性 中。 


3.9 双 样 本 检验 


双 样 本 检验 (Two-sample test) 是 统计 学 中 另 一 类 重要 的 假设 检验 方法 ,用 
于 测试 两 组 样本 是 否 来 自 同一 个 分 布 函数 。 很 多 统计 学 的 理论 方法 可 以 转化 成 
双 样本 检验 问题 ， 如 对 称 性 测试 就 可 以 转化 成 检验 对 称 变换 的 样本 是 否 同 分 布 
的 问题 ， 又 如 变 点 检测 (Change Point Detection) 其 实 就 是 寻找 一 组 双 样 本 检 
测 中 样本 间 差 异 最 大 的 点 。 同 时 ， 双 样本 检验 又 具有 广泛 的 应 用 价值 ， 比 如 可 以 
检测 临床 治疗 、 政 策 实施 等 人 为 干预 前 后 目标 变量 是 否 发 生 了 变化 等 。 常 见 的 
双 样 本 检验 方法 很 多 ， 如 双 样 本 T 检验 ，K-S 检验 和 基于 核 函 数 的 检验 等 。 但 
这 些 方法 都 有 各 自 的 不 足 之 处 ， 比 如 T 检验 需要 正 态 分 布 假设 ，K-S 检验 只 能 
作用 于 单 变量 情况 ， 而 核 函 数 方法 需要 超 参数 的 调试 等 。 

马 健 业 引 提出 了 一 种 基于 CE 的 双 样 本 检验 方法 喇 , 思想 是 基于 样本 与 检验 
标注 之 间 的 相关 性 程度 来 定义 检验 统计 量 。 给 定 两 组 样本 Xo = {Xo Xon) ~ 
Po Al Xi = (Xu: Xin} ~ 只 ,该 检验 的 零 假设 为 


Ho: Po = B, (13) 
对 立 假设 为 

Hı : Po Z Py. (14) 
定义 X = (Xo, X1), 以 及 两 个 检验 标注 变量 Yo = (li, slin) 和 Yi = 
(11,… ,1m;21,… ,2n)， 则 该 检验 的 统计 量 可 通过 零 假设 和 对 立 假设 的 CE 25 
来 定义 : 


Tee = He(X, Yo) — He(X,Y1). (15) 


lljkjrykEL/E R 和 Python 语言 的 copent 包 [190] 中 实现 。 
22 实验 代码 : 
13 此 方法 已 在 R 和 Python 语言 的 copent 包 [190] 中 实现 。 
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Bil, 4 Ho AE, Toe 较 小 ; 而 当 H, 为 真 时 ， 则 较 大 。 作 者 给 出 了 基于 CE 
非 参 数 估计 的 统计 量 估 计 方法 。 因此 , 该 检验 方法 是 多 变量 非 参数 检验 , 且 无 需 
调 参 。 作 者 在 3 组 由 正 态 分 布 和 正 态 Copula 仿真 的 数据 上 验证 该 方法 的 有 效 
性 ， 并 将 方法 与 基于 MI、 核 函数 和 dCor 的 三 种 多 变量 非 参 数 检 验方 法 进行 了 
对 比 ， 发 现 该 方法 有 效 检验 了 仿真 实验 中 的 双 样本 假设 ， 与 同类 方法 相 比 具有 
同等 或 更 好 的 检验 性 能 四。 


3.10 ” 变 点 检测 


变 点 检测 (Change Point Detection) 是 统计 学 中 一 个 典型 的 时 间 序列 分 析 
任务 ， 是 指 在 一 个 时 间 序 列 中 检测 发 生 的 系统 状态 突变 。 检 测 问题 可 以 是 离线 
检测 或 在 线 检测 ， 单 点 检测 或 多 点 检测 ， 检 测 对 象 可 以 是 单 变量 数据 或 多 变量 
数据 。 问 题 在 上 个 世纪 50 年 代 就 被 提出 ， 经 过 长 时 间 的 研究 ， 目 前 已 经 提出 了 
量 的 检测 算法 。 变 点 检测 的 应 用 领域 十 分 广泛 , 可 以 用 于 检测 自然 系统 、 生 命 
系统 、 社 会 系统 、 或 工业 系统 中 发 生 的 各 种 突变 。 

变 点 检测 问题 可 以 转化 为 双 样本 检验 问题 ， 即 在 时 间 序 列 的 每 个 点 上 ， 对 
该 点 前 后 的 数据 做 双 样本 检验 测试 ， 检 验 统计 量 最 大 的 点 即 可 认为 是 发 生 了 状 
态 改变 的 变 点 。Ma [6] 根据 这 一 原理 ， 利 用 B. 中 到 的 基于 CE 的 双 样 本 检验 ， 
提出 了 一 种 非 参数 多 变量 的 单 变 点 检测 方法 ， 继 而 又 结合 单 变 点 检验 方法 和 二 
分 割 策略 提出 了 一 种 多 变 点 检测 方法 央 ， 该 方法 包括 以 下 步 又 : 


- 对 待 检 测 时 间 序列 进行 单 变 点 检测 ; 


. 若 检测 的 统计 量 大 于 设 定 的 阁 值 ， 则 将 检测 到 的 变 点 前 后 序列 分 别 加 入 待 
检测 时 间 序 列 ; 

3. 继续 进行 检测 ， 直 至 所 有 序列 检测 完毕 。 
方法 中 采用 阀 值 来 判断 茶 一 段 序列 上 是 否 存 在 变 点 ， 从 而 能 够 自动 估计 变 点 的 
个 数 。 他 在 一 组 仿真 数据 上 验证 了 方法 , 并 与 传统 经 典 方法 进行 了 对 比 , 证 明了 
该 方法 的 有 效 性 和 优越 性 ; 又 在 典型 的 变 点 检测 测试 数据 一 一 尼罗河 年 径流 数 
据 上 验证 了 方法 ， 结 果 该 方法 成 功 检测 到 了 数据 中 年 径流 变化 的 变 点 9. 


ja 


N 


4 讨论 
4.1 理论 应 用 之 间 的 联系 
以 上 介绍 的 CE 的 前 四 个 理论 应 用 之 间 有 着 内 在 的 联系 。 从 理论 基础 上 讲 ， 
它们 都 是 基于 CE 对 统计 独立 和 条 件 独立 的 度量 的 理论 框架 ， 学 习 某 种 内 在 的 


14 实 验 代码 : https://github.com/majianthu/tst 
15 此 方法 已 在 Python 语言 的 copent 包 [190] 中 实现 。 
16 实 验 代码 : https://github.com/majianthu/cpd 
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统计 关系 , 这 是 共同 点 。 区 别 在 于 这 


因果 关系 的 有 向 图 结构 ， 也 可 以 月 
模型 。 总 之 ， 利 月 
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四 个 应 月 


研究 的 关系 不 同 , 以 及 关联 结构 的 


表示 方式 不 同 。 关 联 发 现 问题 主要 关注 成 对 变量 之 间 的 静态 的 统计 相关 ， 表 示 
为 相关 和 矩阵 的 形式 ; 结构 学 习 则 关注 一 组 变量 之 间 整 体 的 关联 结构 ， 
的 形式 ; 变量 选择 的 目的 是 要 建立 一 个 多 对 一 的 关联 结构 ， 最 终 要 
的 形式 ; 时 序 因果 发 现 是 动态 系统 中 的 因果 关系 ， 它 也 可 以 构建 表示 变量 之 间 
来 进行 变量 选择 ， 构 建 时 序 预测 的 函数 关系 
H CE 度量 统计 独立 和 条 件 独立 关系 ， 可 


表示 为 图 
示 为 函数 


AS 


以 估计 随机 变量 之 间 


y 


的 相关 性 和 因果 1 


形式 ， 通 过 结构 学 习 生 成 直观 的 无 向 或 有 向 图 的 形式 ， 或 者 通过 变 引 
能 力 的 静态 或 动态 时 序 的 函数 模型 的 形式 。 

检验 和 条 件 独立 怕 
过 问题 之 间 内 在 的 上 下 游 关 系 构成 了 一 个 方法 论 体系 ， 为 各 种 问题 的 求解 提供 
FE 检 验 可 以 月 


具有 预测 


EP CE MEI 


了 一 个 功能 丰富 的 工具 


48. TT 


择 问 题 , 这 样 的 模型 可 以 是 特定 类 型 的 函数 ， 如 4 
有 中 估计 的 微分 方程 。 ARPS 
来 估计 TE， 进 而 进行 时 序 变量 之 间 的 因果 分 析 ; UA 
T CE 概念 可 以 月 


程 模型 ， 如 我 们 在 系统 辨识 应 月 
A 
态 系统 中 的 时 延 参数 。 


来 解决 假设 检验 问题 ， 


生 关 系 强度 ， 进 而 通过 相关 或 因果 关系 发 现 表 示 成 基本 的 矩阵 


选择 构造 


检验 是 其 他 理论 应 用 的 


础 ， 通 


昌 来 解决 建立 模型 过 程 中 的 变量 选 
E 存 分 析 函 数 ， 也 可 以 是 动态 过 
检验 可 以 直接 
H TE 方法 又 可 以 估计 动 
包括 面向 多 


元 正 态 性 的 单 样 本 检验 和 普 适 的 双 样 本 检验 ， 而 得 到 的 双 样 本 检验 又 可 以 解决 


时 序 分 析 中 的 变 点 检测 问题 。 


4.20 ”相关 性 和 因 末 性 
HRH 


3 RR 


础 上 的 估计 方法 。 


ZS 


E 和 因果 性 是 统计 学 中 的 两 个 


和 础 性 概念 ， 对 应 于 概率 论 中 的 统计 独 
和 条 件 独立 。 统 计 独 立 和 条 件 独立 是 两 个 不 同 的 概念 ， 但 又 有 着 内 在 的 联系 。 
门 通过 CE 的 概念 ， 给 出 二 者 之 间 的 内 在 联系 的 理论 框架 ， 以 及 在 此 理论 框 


前 者 可 以 月 
概念 ， 具 


的 MI 概念 。 后 者 可 以 月 
以 月 


此 ， 二 者 之 间 
THX 


具有 内 在 的 理论 联系 。 


H CE 来 衡量 。CE 是 
L 有 很 多 数学 家 梦 窟 以 求 的 独立 性 度量 的 公理 属性 。 
H TE 来 衡量 。TE 等 价 于 条 件 MI。 我 
H CE 来 表示 。 也 就 是 说 , 条 件 独立 可 以 通过 统计 独立 来 表示 
者 之 间 具 有 内 在 的 理论 联系 。 后 者 可 以 月 


不 等 于 因果 性 ， 二 者 是 不 同 的 


个 完美 的 衡量 统计 独立 和 


E/ 相 关 性 的 数学 
等 价 于 信息 论 中 
门 证 明了 TE 可 
和 计算 。 因 此 二 


nd 


A 
= 


H TE 来 衡量 。TE 等 价 于 条 件 MI. 


念 ， 但 人 们 有 时 却 很 容易 误 把 二 者 


等 同 起 来 。 举 一 个 我 们 做 的 时 序 因果 发 现 的 研究 [LO] 作为 例子 加 以 说 明 。 论文 


给 出 了 一 种 利 月 


H CE 来 估计 TE 的 算法 ， 


采用 了 一 个 环境 气象 的 数据 来 验证 


TE 佑 计算 法 [10]. 数据 是 北京 的 PM2.5 观测 数据 ， 以 及 同时 观测 到 的 北京 地 


区 气象 数据 。 论文 实验 分 析 了 气象 因素 (温度 、 露 
从 时 序 观测 数据 中 估计 的 TE 来 衡量 ， 发 现 了 二 者 之 间 的 


浓度 的 因果 强度 ， 月 
因果 关系 变化 规律 。 


点 、 气 压 和 风速 等 ) 对 PM2.5 
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Transfer Entropy Joint CE 
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(c) 温度 和 PM2.5 的 关联 (d) PM2.5 的 自 关 联 


图 3: 对 温度 到 PM2.5 的 TE 变化 的 分 解 . 


这 里 要 强调 的 是 论文 的 讨论 部 分 。 我 们 讨论 对 比 了 时 序 相 关 性 和 时 序 因果 
性 ， 发 现 即使 是 气象 因素 和 PM2.5 浓度 之 间 相关 性 微弱 的 情况 下 ， 二 者 之 间 仍 
SRA AAR KA © YE XC DATE AON Bil (B), 对 此 做 了 说 明 。 子 图 (a) 和 
(c) 分 别 对 应 TE 和 CE， 也 就 是 因果 性 和 相关 性 。 我 们 可 以 发 现 ， 相 关 性 强度 
几乎 为 0, 而 因果 性 强度 依然 很 高 。 

我 们 认为 ， 这 一 分 析 结 果 是 由 时 序 观测 的 对 象 系统 的 动态 性 造成 的 ， 气 象 
因素 对 PM2.5 浓度 变化 的 影响 不 是 即时 的 , 而 是 由 于 大 气 系统 的 内 部 运动 过 程 ， 
有 一 个 潍 后 的 效应 所 致 。 此 时 ,时序 变量 之 间 没 有 即时 的 相关 关系 , 但 存在 时 沛 
的 因果 关系 。 
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1: 三 种 统计 独立 性 度量 框架 的 对 比 . 

框架 CE DC HSIC 
pa 基于 Copula 函数 | 相关 性 的 非 线性 扩展 | 基于 核 函数 
多 变量 是 AE 203 

不 变性 单调 变换 不 变 线性 变换 不 变 无 
Pearson 相关 | 高 斯 性 假设 下 等 价 | 高 斯 性 假设 下 等 价 PT 

计算 复杂 度 O(n2) O(n*) O(n’ 
独立 性 检验 EE d (202, 203) 
条 件 独立 性 检验 图 

正 态 性 检验 [12] T [20 

双 样本 检验 is boi] 

变 点 检测 hel - p23 

4.3 三 种 理论 框架 的 对 比 

我 们 提出 了 一 个 基于 CE 概念 , 能 够 将 独立 性 和 条 件 独立 性 两 个 基本 概念 相 

统一 的 理论 框架 .与 此 类 似 , 核 函 数 的 方法 [po po 和 距离 相关 的 方法 poski 
也 可 以 应 用 到 这 两 个 概念 的 度量 问题 上 ， 也 分 别 构成 了 类 似 的 理论 框架 。 但 基 
于 CE 的 理论 框架 更 优越 ， 理 论 上 ，CE 的 定义 更 严格 ; 计算 上 , 基于 CE 的 个 


计 方 法 也 更 简单 优雅 ， 普 遍 适 用 ， 


日 计算 量 相对 要 小 。 


snm adiune  — 种 统计 独立 度量 


论 优势 。 比 如 ，CE 天 然 的 是 一 个 多 变 
来 满足 多 变量 的 情况 ; CE 
价 等 属性 ， 而 DC 也 具 


具有 单调 变换 不 变性 


量 概念 ， 


可 以 看 到 CE 具有 多 方面 的 理 


E 和 在 高 


CE 计算 复杂 度 低 ， 而 其 他 二 者 则 


件 独立 和 
果 发 现 两 个 理论 应 用 中 ， 我 们 利 
[E RAE 


XR. LMBUCERS SIEG 


用 真实 数据 对 比 三 种 框架 中 的 独立 性 
测试 方法 。 实 验 结果 表明 了 CE 框架 的 【 
于 其 他 两 个 框架 中 的 相应 的 工具 ， 能 够 更 高 


点 检测 等 方法 。 在 变 


条 件 ) 独立 性 


度量 工 


效 、 
检验 和 双 样 本 检验 等 假设 检验 方法 ， 


量 的 度量 , 而 其 他 二 者 需要 通过 扩展 定义 
断 条 件 下 与 相关 系数 等 
有 类 似 的 等 价 关系 Dod], HSIC 则 未 知 。 在 计算 成 本 上 ， 
具有 较 高 的 计算 复杂 度 

三 种 度量 框架 都 发 展 出 了 一 套 系 统 的 方法 论 体系 ， 包含 了 独立 性 检 1 
LE 检 验 、 正 态 性 检验 、 双 样本 检验 和 变 


条 


量 — 
测试 和 条 
ALY Ot 
准确 地 发 现 更 多 的 相关 或 因果 


但 基 


CE 的 方法 理论 更 严格 ， 也 因此 在 仿真 数据 对 比 实 验 上 表现 出 了 更 优越 的 检 


能 力 。CE 框架 和 核 函 数 框架 都 
MEIN 仿真 实验 表明 ， 


于 各 自 的 双 样 本 检验 方法 发 展 出 了 多 变 
前 者 具有 更 优越 的 检测 性 全 


能 。 


量 非 
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5 性 能 评测 
5.1 概述 


我 们 提出 了 CE 理论 , 利用 其 解决 了 统计 学 领域 的 几 个 基本 问题 , 包括 独立 
性 /条 件 独 立 性 检验 、 多 元 正 态 性 检验 、 双 样本 检验 和 变 点 检测 等 ， 进 而 形成 了 
一 个 系统 的 方法 论 体系 。 同 时 ， 本 领域 内 已 经 存在 大 量 的 针对 这 些 问 题 的 同类 
方法 。 为 了 将 基于 CE 的 方法 与 这 些 同类 方法 进行 对 比 , 我 们 进行 了 针对 不 同 问 
题 同类 方法 的 评估 实验 ,实验 以 仿真 为 主 。 我 们 在 R 语言 copent 算法 包 
中 实现 了 基于 CE 的 5 个 方法 ， 并 调研 整理 了 R 语言 和 Python 语言 实现 的 每 
个 问题 的 CE 同类 算法 ， 利 用 这 些 算法 实现 完成 了 评估 对 比 实验 。 本 部 分 将 给 
出 这 些 评 售 实验 的 设计 和 结果 ， 以 便 读者 了 解 基于 CE 的 方法 相对 于 其 各 自 同 
类 方法 的 性 能 优势 。 

从 理论 的 角度 来 看 , CE 具有 着 坚实 的 数学 基础 和 性 能 良好 的 非 参 数 估计 方 
法 ， 从 而 使 其 方法 体系 体现 出 了 科学 性 和 普 适 性 。 在 所 有 对 比 实验 上 ， 基 于 CE 
的 方法 都 展现 了 所 有 方法 中 最 好 的 评估 结果 。 基 于 这 些 仿真 实验 结果 ， 作 者 认 
为 CE 理论 给 出 了 解决 这 些 统计 学 问题 最 为 科学 且 有 效 的 方法 论 体系 。 


5.2 独立 性 检验 


独立 性 是 概率 统计 领域 的 基本 性 概念 ， 具 有 基础 性 的 重要 地 位 。 从 统计 学 
初期 的 皮尔 逊 相关 系数 开始 ， 如 何 度量 这 种 统计 学 的 概念 就 一 直 是 本 学 科 关 注 
的 核心 问题 之 一 ， 有 大 量 的 度量 方法 根据 不 同 的 思想 或 原则 被 提出 来 。 这 其 中 ， 
就 包括 前 述 的 CE 等 三 种 理论 框架 的 方法 。 那 么 哪 一 种 方法 是 最 理想 的 度量 呢 ? 
理论 上 ， 为 了 回答 此 问题 ，Rényi [24] 曾经 提出 了 著名 的 独立 性 度量 的 公理 系 
Bi, 包括 了 T 条 公理 。Schweizer 和 Wolff [225] 在 提出 他 们 基于 Copula 的 度量 
时 ， 对 Rényi 的 公理 系统 又 做 了 修正 。 

如 何 从 实验 的 角度 评估 对 比 这 些 度量 方法 是 一 个 重要 的 问题 。 马 健 (LT) BE 
计 了 一 组 仿真 实验 四， 对 现 有 的 16 种 独立 性 度量 进行 了 对 比 (度量 方法 及 实现 
见 表 团 , 仿真 实验 考虑 了 变量 情况 为 线性 / 非 线性 、 高 斯 性 / 非 高 斯 性 、 单 变量 /多 
变量 等 多 种 不 同 角度 的 组 合 ， 设 计 了 6 组 仿真 实验 生成 实验 数据 ， 分 别 是 


1. 二 元 正 态 分 布 ， 协 方差 从 0 以 0.1 步 长 增加 到 0.9; 


2. 二 元 正 态 copula 函数 ， 边 缘 函 数 均 为 正 态 分 布 ，copula 函数 参数 从 0 以 
0.1 步 长 增加 到 0.9; 
3. 二 元 阿 基 米 德 copula 函数 (包括 Clayton, Gumbel 和 Frank 三 种 ) ， 参 
数 从 1 增加 到 10; 
ET 


ae 
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表 2: 评 佑 的 独立 性 度量 方法 及 其 软件 实现 . 

算法 包 独立 性 度量 语言 
copent CE [bj R 
stats Ktau R 
energy dCor [204] R 
dHSIC dHSIC R 
HHG HHG.chisq, HHG.lr [07] | R 
independence Hoeff [pog], BDtau R 
Ball Ball R 
qad QAD R 
BET BET R 
MixedIndTests Mixed R 
subcopem2D subcopula R 
EDMeasure MDM R 
FOCI CODEC R 
NNS NNS R 

4. 三 元 正 态 分 布 ，3 个 协 方差 相等 且 从 0 以 0.1 步 长 增加 到 0.9; 

5. 三 元 Gumbel copula 函数 ， 参 数 从 1 增加 到 10， 一 个 边缘 函数 为 正 态 分 


6. 四 元 正 态 分 布 ，4 个 变量 
协 方差 相等 是 从 0 以 0.1 


同时 ， 作 者 也 在 2 组 实际 数据 (心脏 病 数据 和 葡萄 酒 数据 ) 上 对 上 述 
能 进行 了 对 比 。 结 果 (篇 幅 所 限 ， 请 见 AA) 2231, 基于 CE 的 独立 性 


有 情况 中 都 表现 了 最 好 的 性 能 ， 


5.3 ”条件 独立 性 检验 


布 ， 另 两 个 边缘 函数 为 指 


数 分 布 ， 边 缘 函 数 参数 固定 不 变 ; 
分 为 两 组 ， 组 内 协 方差 固定 不 变 ， 两 组 间 的 4 个 


步 长 增加 到 0.8。 


给 出 了 最 合理 的 度量 估计 值 。 


2 一 个 统计 学 的 基础 性 


概念 ， 与 很 多 其 他 理论 问题 密切 相连 


.我 们 证 明了 TE 可 以 由 CE 来 表示 的 结论 , 并 给 出 了 相应 的 估计 算法 由。 


z TE 本 质 上 是 条 件 互信 息 


独立 性 度量 方法 。 本 领域 内 也 存在 一 些 基于 其 他 理论 的 同类 度量 方法 ( 见 表 团 ， 


， 因 此 我 们 也 同时 给 出 了 


个 基于 信息 


论 的 条 件 


如 前 述 的 基于 距离 相关 的 方法 尼 1 直 、 基 于 核 函 数 的 方法 pio pas] . F copula 


的 方法 B36] 等 等 。 为 了 对 比 这 些 方法 ,我 们 设计 了 两 组 仿真 实验 并 采 


实际 数 据 来 评估 下 8 包括 CE 


“用 了 一 组 


在 内 的 16 种 条 件 独 立 性 方法 的 效果 国 。 仿 真实 


18 实 验 代码 : https://github.com/majianthu/eval 
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算法 包 条 件 独立 性 度量 | 语言 
copent CE R 
EDMeasure CMDM R 
FOCI CODEC R 
RCIT RCoT R 
cdcsis CDC R 
GeneralisedCovarianceMeasure GCM R 
weightedGCM wGCM R 
KPC KPC R 
ppcor pcor R 
parCopCITest pcop R 
causallearn KCI Python 
pycit CMIl Python 
knncmi CMI2 Python 
fcit FCIT Python 
CCIT CCIT Python 
pcit PCIT [246 Python 


用 如 下 分 布 生成 数据 ， 包 括 


1. 三 元 正 态 分 布 ， 两 个 协 方差 固定 不 变 ， 条 件 变量 对 应 的 第 三 个 协 方差 paz 
从 0 以 0.1 步 长 增加 到 0.9， 以 模拟 条 件 独立 性 强度 变化 ; 


2. 三 元 正 态 copula 函数 ，copula 函数 中 条 件 变 量 对 应 的 第 三 个 协 方差 paz 
从 0 以 0.1 步 长 增加 到 0.9， 以 模拟 条 件 独立 性 强度 变化 。 


这 样 ， 


度 逐 渐变 化 的 一 组 条 件 独 立 怕 


我 们 就 


于 三 元 正 态 分 布 和 三 元 正 态 copula 函数 得 到 的 仿真 数据 生成 强 
E 关 系 。 我们 将 这 16 种 条 件 独 立 性 


度量 方法 用 于 这 


两 组 仿真 实验 数据 估计 条 件 独立 性 强度 。 结 果 表 明 ，CE 方法 在 仿真 数据 能 够 评 


佑 出 渐次 变化 的 条 件 独 立 性 


- 


问题 背景 的 合理 估计 结果 。 


5.4 


正 态 性 检验 


:强度 部 分 结果 见 图 畴 时 ， 在 实际 数据 上 给 出 符合 


正 态 性 假设 是 统计 学 分 析 中 最 常见 的 理论 假设 之 一 ， 其 假设 检验 方法 一 直 


以 来 者 


是 本 领域 的 重要 研究 课题 ， 


大 量 正 态 性 检验 方法 被 提出 来 ， 如 BHEP 方 


法 、 


基于 偏 度 和 散 度 的 方法 、 
念 提出 了 一 个 多 元 正 态 性 检验 的 方法 ， 


于 距离 相关 的 方法 等 等 Da]. RIEF CE 概 
给 出 了 统计 量 的 估计 算法 [2] . 为 了 与 
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在 三 元 正 态 copula 函数 上 仿真 条 件 独 


图 5 
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表 4: 评估 的 多 元 正 态 性 检验 方法 及 其 R 语言 软件 实现 


算法 包 检验 方法 
copent CE 

Mardia, Royston, Henze-Zirkler 
MVN " 


Dornik-Haansen, energy distance 


Anderson-Darling, Cramer-von Mises 

mvnTest McCulloch, Nikulin-Rao-Robson 
Dzhaparidze-Nikulin 

BHEP, Cox-Small, DEHT, DEHU, EHS, HJG 


mnt HV, HZ, KKurt, MAKurt, MASkew, MKurt 
MQ1, MQ2, MRSSkew, MSkew, PU, SR 
mvnormtest Shapiro- Wilk (250) 


同类 算法 进行 对 比 ， 我 们 调研 得 到 了 基于 R 语言 实现 的 29 种 重要 的 多 元 正 态 
性 检验 方法 (MAA, SEF CE 的 方法 进行 对 比 。 我 们 设计 了 两 组 仿真 实 
验 E9 来 模拟 不 同 的 非 正 态 性 分 布 情况 : 

1. 第 一 组 实验 仿真 多 元 分 布 由 二 元 正 态 copula 函数 和 两 个 边缘 函数 EA 


分 布 和 指数 分 布 ) 生成 ， 其 中 由 指数 边缘 分 布 的 参数 rate 变化 来 仿真 非 
正 态 性 的 增加 ; 


2. 第 二 组 实验 仿真 多 元 分 布 由 二 元 Gumbel copula 函数 和 两 个 正 态 边缘 函 
数 生 成 ， 其 中 由 copula 函数 的 参数 变量 alpha 来 仿真 非 正 态 性 的 变化 。 


我 们 将 CE 和 其 他 29 种 检验 方法 应 用 于 这 两 组 仿真 数据 得 到 检验 统计 量 。 实 验 
结果 见 图 in 图 四， 可 以 看 出 基于 CE 的 方法 的 统计 量 能 够 反映 出 数据 分 布 非 正 
态 性 的 变化 ， 且 比 对 比方 法 的 效果 更 准确 合理 。 


5.5 双 样 本 检验 


双 样本 检验 是 统计 学 中 基础 性 的 假设 检验 问题 之 一 ， 很 多 其 他 的 理论 问题 ， 
如 对 称 性 检验 、 单 样本 检验 和 变 点 检测 等 问题 都 可 以 转化 成 此 类 问题 。 同 时 ， 
对 比 两 组 分 布 的 差异 也 是 实际 应 用 中 经 常 面 对 的 问题 之 一 。 双 样本 检验 可 分 为 
单 变量 问题 和 多 变量 问题 两 种 情况 ， 相 应 地 都 有 很 多 经 典 的 方法 ， 单 变量 的 有 
Wilcoxon 方法 、Kruskal-Wallis 方法 和 Kolmogorov-Smirnov 方法 等 [251] ， 双 
样本 检验 有 基于 统计 量 的 方法 (如 距离 相关 poi]. Bone pos]. HHG 统计 
fit po]. Ball 统计 量 B52) 等 ) 和 基于 统计 学 习 的 方法 (如 随机 森林 B53) 等 。 
我 们 提出 了 一 种 基于 CE 的 双 样 本 检验 方法 ， 并 给 出 了 统计 量 的 估计 算法 [3J. 


19 实 验 代码 : https://github.com/majianthu/mvnt 
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图 6: 基于 边缘 分 布 变化 的 多 元 正 态 怕 
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为 了 与 同类 方法 进行 对 比 ， 我 们 调查 整理 了 R 语言 环境 下 实现 的 单 变 量 和 多 变 


量 同类 方法 Onde), ， 并 设计 了 对 比 仿真 实验 四 ， 


单 变量 实验 ” 单 变量 情况 的 对 比 仿真 实验 设计 为 检验 两 个 不 同 的 单 变量 正 态 分 


布 ， 有 两 组 : 
1. 第 一 组 仿真 首先 4 


值 ui 的 值 由 0 增加 到 


E 成 一 个 均值 uo = 0 的 正 态 分 布 ， 第 二 个 正 态 分 布 的 均 


9， 两 个 分 布 方差 均 为 1; 


2. 第 二 组 仿真 也 是 首先 生成 一 个 方差 d = 1 的 正 态 分 布 ， 第 二 个 正 态 分 布 
的 方差 ó, 的 值 则 由 1 增加 到 10， 两 个 分 布 均值 均 为 0。 


我 们 利用 所 有 双 样 本 检验 方法 从 仿真 数据 估计 检验 统计 量 。 实 验 结果 见 多 图. 结 
正确 地 反映 了 实验 设 定 情况 ， 取 得 了 与 对 比方 法 相同 


ARB, CE 方法 的 统计 量 


或 更 好 的 结果 。 


多 变量 实验 ”多 变量 情况 的 对 比 仿真 实验 


有 三 组 : 


也 是 设计 为 检验 对 比 两 个 二 元 分 布 ， 


1. 第 一 组 仿真 两 个 均值 的 差 值 逐渐 变 大 的 两 个 二 元 正 态 分 布 ， 第 一 个 均值 


uo 三 0， 第 二 个 均值 为 [ui, u], 
的 协 方差 矩阵 相同 ; 


2. 第 二 组 仿真 首先 仿真 一 个 协 方差 po = 0 的 二 元 正 态 分 布 ， 第 二 个 正 态 分 


ul 从 0 以 1 为 步 长 增加 到 9， 两 个 分 布 


布 的 协 方差 pi 则 由 0 以 0.1 为 步 长 增加 到 0.9， 两 个 分 布 的 均值 均 为 0; 


3. 第 三 组 仿真 也 是 首先 仿真 一 个 协 方差 po = 0 的 二 元 正 态 分 布 ， 第 二 个 分 


布 则 由 二 元 正 态 copula 函数 和 两 个 边缘 函数 ( 正 态 函数 和 指数 函数 ) E 


成 ， 正 态 copula 函数 和 边缘 正 态 函 数 参数 不 变 ， 指 数 函 数 的 参数 rate 从 


j 


CE 的 方法 在 多 变量 的 情 


增加 到 10， 以 仿真 不 断 变 大 的 二 元 非 正 态 性 。 
我 们 利用 这 些 检 验方 法 从 仿真 数据 估计 检 
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HDL PURER A 


下 分 布 差异 的 变化 ， 具 有 与 对 比方 法 相同 或 更 优 的 检验 角 
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变 点 检测 是 时 序数 据 分 析 领 域 重要 的 问题 之 一 ， 可 分 为 在 线 和 离线 、 单 变 


数据 分 析 、 计 量 经 济 学 等 ) 都 有 重要 应 用 。 此 问 
很 多 解决 方法 ， 相 关 综述 见 [263-265]. RAF CE 提出 了 一 种 非 参数 多 变 点 


量 和 多 变量 、 参 数 和 非 参 数 等 不 同类 型 。 它 在 很 多 不 同 领域 (如 工业 过 程 、 神 经 


题 很 早 就 被 提出 ,研究 者 提出 了 


20 实 验 代码 : https://github.com/majianthu/tst 


评测 
X 5: 评估 的 单 变量 双 样 本 检验 方法 及 其 R 语言 软件 实现 . 
copent CE 
me Wilcoxon [251] 


Kruskal-Wallis [251] 


twosamples [254] 


6: 评 佑 的 多 变量 双 样 本 检验 方法 及 其 R 语言 软件 实现 . 


CVM, KS, Kuiper 
WASS, DTS, AD 


copent E 

MI [255,256] 
kernlab Kernel 
energy Energy statistics 
Ball Ball divergence 
hypoRF Random Forest 

HHG sum.lr 
HHG HHG max.chisq 

HHG max.lr 
cramer Cramer [258] 
TwoSampleTest.HD TST.HD 
fasano.franceschini.test F-F 


Peacock.test 


Peacock 


diproperm 


DiProPerm [262] 


34 


35 


测 


性 能 评 


5 


Kruskal-Wallis 


00S 00y ooe ooz oot 


ohshels 


T 
0 


Wilcoxon 


T 
0000y 00007 


ogshels 


T 
0 


CE 


ogshels 


uy 


uy 


uy 


Kuiper 


KS 


CVM 


onsmeis 


or 80 90 vo zo 


onsneis 


OL g0 90 vo ZO 


T—1—1 
ooz ost 00i 


onsnels 


os 


us 


uy 


AD 


DTS 


WASS 


000092 


T——1 
000001 


onses 


T 
0 


ost 


onsneis 


os 


uy 


uy 


us 


(a) 均值 变化 实验 


Kruskal-Wallis 


Wilcoxon 


CE 


onshels 


00099 000yS 00029 0000: 


onsneis 


onses 


10 


10 


10 


ài 


Kuiper 


KS 


CVM 


s0 90 vo zo 
onses 
—— 
vo £0 zo ro 
onsneis 
koah 
or o 02 o 


10 


10 


10 


Š 


AD 


DTS 


WASS 


ar a ae 
00009 


ohshels 


0000z 0 


TT 
oop oo ooz 00i 


onshels 


T 
0 


ogshels 


10 


10 


10 


Š 


(b) 方差 变化 实验 


果 。 


结 


实验 


双 样 本 检验 评 全 


zi 


il 


|== 


图 8: 单 变 


5 


statistic 


statistic 


statistic 


statistic 


statistic 


statistic 


statistic 


statistic 


statistic 


03 06 


0.0 


0.0 04 08 


1000 


0 


-005 040 


06 10 14 


02468 


0.45 


035 


0.30 


0.15 


40 60 


20 


性 能 评测 


36 


CE MI Kernel Energy Ball 
4 ° 24 a4 å 
J $ 41 Bol $ g] 4 
J $8 $93 š š] = 了 
— a T Ter ed a “u ee reas sssi asss == s= SO y = F === 
0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 
RF HHG sum.chisq HHG sum.Ir HHG max.chisq HHG max.Ir 
3 8 5 v gt s 
4 e 81] s 34 gr rie š J] 
4 s J kl i z e] s] 
4 ° 84] "Le DEDE 8 ] 
1 == š X ——————3À $ ———— =” 一 ° 一 
0 2 4 6 8 SE 2 4 6 8 0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 
uy uy uy uy uy 
Cramer TST.HD F-F Peacock DiProPerm 
" j E s 
1 "En FER 2 o 
] $ .1 $ 83 $8 2.7 
J $ m [S š 8. 
HO 0 T3 3 trr T 2 —1—1—t 
0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 0 过 4 6 8 0 2 4 6 8 
ZTE AL p 
(a) 均值 变化 实验 
CE MI Kernel Energy Ball 
= 
m ee 3 o ° "m E NE 
00 02 04 06 08 00 02 04 06 08 0.0 02 04 06 08 00 02 04 06 08 00 02 04 06 08 
P” m P pt P” 
RF HHG sum.chisq HHG sum.Ir HHG max.chisq HHG max.Ir 
1 M š Š =, 8 š] Bg IN 8 Seni 
4 T T T T TA T T T T s: T T T T T T T T T > T T T T T 
00 02 04 06 08 00 02 04 06 08 00 02 04 06 08 00 02 04 06 08 00 02 04 06 08 
Pi M P Pr P 
Cramer TST.HD F-F Peacock DiProPerm 
7 E 4 $ ed $ 7 3 
21 $3 Em 全 
T T T T T T T T T T Ñ T T T T T Ab ONE T T T T e T T T T T 
00 02 04 06 08 00 02 04 06 08 00 02 04 06 08 00 02 04 06 08 00 02 04 06 08 
E m m » 
Zm ar AS 
(b) 协 方差 变化 实验 
CE MI Kernel Energy Ball 
3 84 4 
asi z š Rae Ë s A eg E 2] 
= š Fr a pe SOC eo po apa 
# 4 6 8 10 2 4 6 8 10 2 4 6 8 10 2 4 6 8 10 4 6 8 10 
rate rate rate rate rate 
RF HHG sum.chisq HHG sum.Ir HHG max.chisq HHG max.Ir 
° Š ə Ëq 2 g 2 
E 一 $7 z š z 3 
Š 。 Š e š š 
3 81 8 8 
T T T T ? è T T T ? ? 8 T T ? ? ? 8 t T T ? ? vi T T ? 
2 4 6 8 10 2 4 6 8 10 Nd 2 4 6 8 10 2 4 6 8 10 4 6 8 10 
rate rate rate rate rate 
Cramer F-F Peacock DiProPerm 
1 š 8$ *4 Ë 81 a] 
J ri $ 2] $34 31 
1 E $1 E 
f AE E CES E A 8 oaa atasi 9 Lp 
* 4 6 8 10 8 10 2 4 6 8 10 2 4 6 8 10 4 6 8 10 
rate rate rate rate rate 


(c) IEX copula 函数 参数 变化 实验 


A 


9: 多 变 


DURE AS Fo or 


佑 实验 结果 。 


6 实际 应 用 37 


检测 方法 二， 可 以 在 无 分 布 假设 的 情况 下 应 用 到 任何 场合 。 为 了 与 同类 方法 进 
行 对 比 ， 我 们 调研 整理 了 基于 R 语言 实现 的 变 点 检测 方法 ( 见 表 团 ， 并 设计 了 
对 比 仿真 实验 四 

对 比 仿真 实验 模拟 了 6 种 不 同类 型 的 情况 ， 分 别 是 


1. 单 变量 下 均值 变 点 、 均 值 -方差 变 点 和 方差 变 点 ; 
2. 多 变量 下 均值 变 点 、 均 值 -方差 变 点 和 方差 变 点 。 


仿真 实验 的 设计 是 这 样 的 : 首先 生成 4 个 均值 -方差 作出 相应 变化 的 单 /多 变量 
正 态 分 布 ， 再 将 仿真 数据 顺 次 连接 以 模拟 分 布 变化 具有 3 个 变 点 的 情况 ， 最 后 
我 们 将 表 轩 中 的 20 个 算法 包 中 适用 于 仿真 变 点 情况 的 方法 进行 检测 实验 。 结 果 
表明 ， 基 于 CE 的 方法 能 够 检测 出 6 种 情况 下 的 变 点 位 置 ， 获 得 了 与 对 比方 法 
相同 或 更 好 的 结果 。 特 别 值得 一 提 的 是 ， 基 于 CE 的 方法 适用 于 所 有 不 同 的 情 
BL. 而 且 其 参数 调节 量 最 小 , 体现 了 良好 的 普 适 性 和 实用 性 。 而 一 些 对 比方 法 则 
只 适用 于 某 种 特定 情况 〈 单 变量 或 多 变量 、 均 值 或 方差 ) 的 变 点 ， 且 需要 对 检测 
参数 进行 调 优 。 


6 实际 应 用 


61 理论 物理 学 


热力 学 是 一 门 古老 的 理论 物理 学 分 支 ， 在 19 世纪 由 克 劳 修 斯 、 波 尔 兹 曼 和 
吉 布 斯 等 人 建立 , 研究 物理 系统 的 宏观 状态 (如 温度 ) 与 其 微观 状态 之 间 的 理论 
联系 。 箭 和 热力 学 第 二 定律 是 其 最 为 核心 的 理论 内 容 。 香 农 的 信息 论 就 是 受热 
力学 的 烂 概念 启发 而 建立 的 。 一 直 以 来 ， 热 力学 和 信息 论 之 间 的 理论 联系 就 是 
相关 领域 的 重要 话题 之 一 。CE 是 从 信息 论 领域 提出 的 数学 概念 ， 它 的 物理 意义 
和 解释 一 直 未 得 到 研究 。 马 健 [18] 将 CE XC B TOP AER ORR SE 
的 推导 和 计算 ， 给 出 了 CE 的 热力 学 解释 ， 建 立 了 热力 学 和 信息 论 之 间 的 又 一 
理论 联系 。 


6.2 天 体 物理 学 


红 移 是 宇宙 星体 的 最 重要 信息 之 一 ， 因 其 反映 了 星体 距离 地 球 的 宇宙 距离 ， 
可 以 用 于 研究 星系 演化 和 字 窗 学 。 测 光 红 移 是 一 种 从 宇宙 星体 光学 观测 估计 其 
红 移 的 方法 。 由 于 光学 观测 相 比 于 光谱 观测 更 易于 施行 ， 因 此 测 光 红 移 是 现代 
天 文学 巡天 观测 的 主要 手段 之 一 ， 一 般 在 获得 测 光 红 移 信息 后 再 对 感 兴趣 的 星 
体 进行 光谱 观测 。 机 器 学 习 方 法 已 经 成 为 构建 测 光 红 移 预测 模型 的 主要 方法 之 
一 ， 但 其 预测 准确 度 仍 有 待 提高 。 马 健 [10] 提出 利用 基于 CE 的 变量 选择 方法 
"Jaen 
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表 T: 多 变 点 检测 方法 评估 实验 中 的 R 语言 算法 软件 实现 . 
均值 | 均值 方差 | 方差 | 均值 | 均值 方差 | 方差 
copent f y "A m: "i " 
changepoint V V Vv 
ecp V V vV 
rid " y "22. i vf 
CptNonPar [269] y "4 "NS "4 "4 
npwbs (270) V V Vv 
MFT [271] g 
jep P72 v v 
InspectChangepoint V V V V V V 
hdbinseg V V V 
changepoint.np V V v 
changepoint . geo [276] v V V 
mosum V Vv Vv 
SNSeg Ë d "E. d Vv 
offlineChange Vv v V 
IDetect Vv 
wbs [281] Vv 
breakfast Vv 
mscp V 
L2hdchange V V V 
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构建 此 类 估计 模型 ， 以 提高 预测 模型 的 准确 度 。 该 方法 首先 估计 光学 观测 和 红 
移 之 间 的 CE 作为 观测 变量 的 重要 性 度量 ， 再 将 重要 的 观测 变量 作为 模型 的 输 
入 来 预测 红 移 。 他 将 方法 应 用 于 斯 隆 巡 天 类 星体 观测 数据 ， 结 果 表 明 ， 利 用 CE 
选择 后 得 到 的 模型 的 准确 度 要 高 于 未 经 过 选择 的 模型 ， 特 别 是 在 高 红 移 (> > 4) 
的 星体 上 ， 预 测 准确 度 得 到 了 明显 提升 四 .同时 ,方法 也 选择 出 了 具有 可 解释 性 
的 一 组 光学 观测 变量 , 包括 光度 星 等 、 紫 外 波段 亮度 和 标准 差 、 和 其 他 四 个 波段 
亮度 等 ， 为 进一步 天 体 物理 研究 和 光学 观测 仪器 设计 提供 了 科学 证 据 。 


6.3 地球 物理 学 


土地 干旱 度 是 土地 表面 水 分 和 能 量 动态 交互 过 程 的 属性 ， 传 统 的 干旱 度 度 
量 大 多 使 用 气候 条 件 变量 的 长 期 均值 来 进行 计算 ， 难 以 反映 短期 的 地 表 水 分 -能 
量 交 互 。 燕 散 是 表征 短期 地 表 的 水 汽 -能 量 交 互 过 程 的 关键 变量 ， 包 括 十 地 和 植 
物 表面 的 水 分 散发 ， 传 统 上 根据 土壤 湿度 和 能 量 供应 将 其 分 成 水 分 驱动 、 能 量 
驱动 和 过 渡 型 三 种 概念 框架 。 研 究 表明 ， 蒸 散 - 土 壤 湿 度 关系 也 受 其 他 因素 影响 ， 
如 云层、 风速 和 植被 等 ， 考 虑 这 些 因素 如 何 影响 葵 散 为 开发 新 的 土地 干旱 度 分 
类 框架 提供 了 可 能 性 。Shan 等 DO] 通过 考虑 土地 -大 气 的 短期 耦合 效应 ， 提 出 
了 一 种 新 的 刻画 十 地 干旱 度 的 方法 。 该 方法 利用 基于 CE 的 条 件 互信 息 分 别 计 
算 蒸 散 与 土壤 湿度 和 太阳 辐射 的 因果 关系 强度 ， 再 利用 这 两 种 因果 关系 的 差 什 
将 土地 干旱 度 分 为 6 种 类 型 ， 分 别 对 应 到 三 种 蒸 散 概念 框架 。 他 基于 1990 至 
2020 年 间 夏 季 中 国 大 陆 的 气温 、 露点 温度 、 填 壤 湿 度 、 洪 在 热流 、 敏 感 热 流 、 蒜 
散 和 地 表 太阳 辐射 等 逐 小 时 记录 数据 ， 利 用 该 方法 得 到 了 土地 干旱 度 空间 分 布 
图 ， 并 与 联合 国 环境 规划 署 的 干旱 度 指数 进行 了 对 比 ， 发 现 该 方法 计算 得 到 的 
条 件 互信 息 分 布 图 与 水 分 和 能 量 的 地 理 分 布 相符 ， 由 此 得 到 的 干旱 度 分 布 能 够 
更 精确 地 捕捉 短期 地 表 过 程 ， 因 此 提供 了 一 种 短期 土地 -大 气 交 互 过 程 的 有 价值 
的 补充 信息 。 该 方法 加 深 了 对 气候 干旱 特征 的 理解 ， 提 供 了 一 种 对 极端 热浪 和 
又 发 干旱 等 短期 气候 变化 具有 敏感 度 的 表征 工具 方法 。 
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6.4 理论 化 学 


变 构 效 应 (Allostery) 被 认为 “生命 的 第 二 秘密 ”, 是 普遍 存在 于 几乎 所 有 和 蛋 
白质 的 生命 现象 , 它 是 指 变 构 调节 分 子 与 蛋白 质 结 合 , 诱导 结合 位 点 以 外 的 远 点 
发 生变 化 的 调节 效应 。 最 常见 的 变 构 系 统 模 型 是 变 构 二 状态 模型 ， 描 述 了 变 构 
过 程 的 热力 学 循环 。 此 类 模型 假设 了 受 体 活化 是 二 状态 过 程 , 这 与 NMR 实验 揭 
示 的 多 模 态 过 程 不 相符 合 。 深 入 理解 配 体 诱 导 的 受 体 活 化 的 分 子 机 制 需要 构建 
新 的 理论 来 理解 配 体 结合 点 和 激活 点 之 间 的 热力 学 耦合 关系 。Cuendet 等 
提出 了 一 种 新 的 理论 ， 称 为 变 构 景 观 (Allostery Landscape) ， 定 义 了 热力 学 耦 
合 函数 来 量化 生物 分 子 系统 中 的 热力 学 耦合 。 他 们 指出 新 函数 与 copula 密度 函 


22 实 验 代 码 : https://github.com/majianthu/quasa 
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数 和 CE 有 密切 联系 ，CE 定义 了 变 构 系统 的 信息 传输 属性 ， 即 配 体 结合 点 和 激 
活 点 之 间 的 信息 传输 。 他 们 将 新 理论 应 用 到 丙 氨 酸 二 肽 的 N 端 和 C 端的 热力 学 
耦合 分 析 中 。 


6.5 ”化 学 信息 学 


化 学 信息 学 是 化 学 和 信息 学 科 的 交叉 学 科 ， 通 过 表征 化 学 结构 为 数据 ， 解 
决 诸如 分 子 设计 、 化 学 反应 模拟 和 规划 等 问题 。 定 量 构 效 是 该 领域 的 前 沿 问题 ， 
研究 分 子 结构 与 分 子 理化 性 质 之 间 的 定量 关系 ， 以 指导 具有 指定 特性 的 分 子 设 
计 ， 应 用 广泛 。 分 子 理化 特性 可 以 理解 为 分 子 结构 的 某 种 对 称 变换 不 变性 ， 而 从 
数据 学 习 得 到 这 种 不 变性 变换 是 分 子 设计 的 关键 目标 。Wieser 等 PA 将 对 称 变 
换 学 习 问 题 转化 为 信息 瓶颈 (Information Bottleneck) 问题 ， 提 出 了 一 种 对 称 
变换 信息 瓶颈 (Symmetry-Transformation Information Bottleneck: STIB) Jy 
法 。 该 方法 将 分 子 表征 表示 为 由 两 个 部 分 组 成 的 隐 含 表示 ， 其 中 一 个 部 分 对 应 
不 变性 表示 ， 基 于 MI (CE) 的 变换 不 变性 ， 设 计 了 问题 模型 的 学 习 算法 。 作 者 
将 算法 应 用 于 包含 13.4 万 有 机 分 子 的 QM9 数据 库 有 zs 本 ,使 用 其 中 具有 固定 化 
学 计量 (CrO2H10) 的 6095 个 分 子 的 子 集 ， 并 将 其 对 应 的 带 阶 能 量 和 极 性 作为 
目标 不 变性 属性 。 实 验 结果 表明 ，STIB 方法 给 出 了 能 够 学 习 出 表征 分 子 属性 、 
带 阶 能 量 和 极 性 不 变性 的 对 称 变换 ， 验 证 了 方法 的 有 效 性 。 


tea 


6.6 材料 学 


耐 热 型 含 能 材料 是 指 具有 高 能 量 和 高 热 稳定 性 的 特殊 材料 ， 可 以 在 高 温 的 
环境 下 保持 稳定 性 质 ， 因 此 是 国防 、 航 空 航天 和 地 质 勘探 等 重点 领域 的 关键 性 
材料 ， 如 宇航 和 高 超 音速 武器 的 推进 燃料 、 深 井 销 探 的 炸药 等 。 但 此 类 材料 数 
量 稀 少 且 实验 研究 具有 极 高 危险 性 ， 因 此 设计 此 类 材料 是 材料 学 家 们 一 直 努 力 
攻克 的 挑战 性 难题 。“ 从 头 设计 ” 含 能 材料 需要 经 历 “ 设 计 -筛选 -评估 ”的 流程 ， 
其 中 采用 机 器 学 习 的 方法 构建 材料 结构 -性 质 预 测 模型 对 设计 的 分 子 性 质 进 行 预 
测 是 材料 分 子 筛选 的 关键 步 又 。 传 统 的 含 能 分 子 性 质 预测 模型 构建 过 程 只 采用 
了 与 热 稳定 性 线性 相关 的 分 子 特征 ， 没 有 考虑 与 合 能 材料 热 分 解 温度 具有 非 线 
性 关系 的 因素 ， 如 蝇 体 结构 和 堆积 方式 等 。 田 杰 3] 提出 了 一 种 结合 皮尔 逊 相 
关系 数 和 CE 的 特征 选择 方法 ， 从 分 子 拓扑 结构 和 量子 化 学 计算 特征 中 选择 与 
热 分 解 温度 具有 相关 性 的 特征 ， 并 构建 预测 模型 。 其 中 ，CE 方法 的 引入 是 为 了 
筛选 和 热 分 解 温 度 具 有 非 线性 关系 的 特征 。 他 收集 了 460 个 含 能 化 合 物 ， 并 生 
成 了 包含 286 个 特征 的 数据 集 ， 并 应 用 该 方法 筛选 得 到 了 87 个 特征 ， 再 将 筛选 
的 特征 做 为 随机 森林 和 SVM 等 模型 的 输入 以 预测 化 合 物 的 热 分 解 温 度 ， 最 终 
得 到 了 较 传统 方法 更 好 的 预测 效果 ， 交 又 验 证 实验 的 预测 误差 控制 在 了 28.5°C。 
他 们 将 方法 应 用 于 自己 设计 的 分 子 生 成 器 生成 的 分 子 ， 最 终 筛 选 出 16 个 具有 良 
好 热 稳定 潜能 且 爆 麦 能 力 很 强 的 含 能 分 子 ， 验 证 了 方法 的 实用 价值 。 
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6.7 水 文学 


洪水 是 主要 自然 灾害 之 一 ， 洪 水 预报 是 降低 洪水 损失 和 管理 洪水 资源 的 重 
要 手段 。 基 于 降水 数据 的 降水 量 -径流 量 模型 可 以 用 来 预报 一 段 时 间 后 的 洪水 。 
但 是 ， 水 系统 具有 复杂 性 和 非 线性 的 特点 ， 导 致 建立 这 样 的 模型 时 选择 正确 的 
模型 输入 十 分 困难 。 陈 璐 等 bd bó) 提出 利用 CE 的 方法 来 选择 输入 并 建立 神经 
网 络 预 报 模型 。 相 比 于 传统 的 方法 , 基于 CE 的 方法 可 以 建立 高 维 模型 且 对 单个 
变量 的 边缘 分 布 不 做 假设 ， 同 时 由 CE 来 估计 降水 量 和 径流 量 的 数量 关系 的 误 
差 更 小 。 陈 璐 等 将 方法 应 用 于 建立 金沙 江 流域 的 洪水 预报 模型 ， 结 果 显 示 利 用 
CE 选择 输入 的 神经 网 络 模型 取得 了 最 好 的 预测 效果 。Li 等 P 基于 CE 和 机 
器 学 习 方 法 研究 了 长 江上 游 的 月 径流 预报 问题 。 他 们 利用 130 个 全 球 环流 指数 、 
7 个 气象 因子 和 高 场 和 寸 潍 两 个 水 文 站 的 月 径流 量 数据 ， 采 用 CE 等 3 种 变量 
选择 方法 和 5 种 机 器 学 习 模型 进行 组 合 构建 预测 模型 。 结 果 表 明 ，CE 和 LSTM 
组 合 在 高 场 站 获得 了 最 优 预 测 性 能 ， 而 随机 森林 和 CE 组 合 在 寸 滩 站 获得 了 满 
意 性 能 。Mo 等 [ps] 提出 了 一 种 长 期 径流 预报 模型 框架 ， 结合 了 CE、LSTM 和 
GARCH 三 种 方法 ， 其 中 CE 用 于 筛选 与 径流 有 关 的 预报 因子 。 与 传统 方法 相 
I, CE 更 适合 因子 间 具 有 交互 关联 的 复杂 情况 。 他 们 将 方法 应 用 于 洪 泽 湖 和 骆 
马 湖 的 径流 预报 研究 ， 结 果 表 明 ， 与 传统 方法 相 比 ， 该 框架 中 的 CE 方法 不 仅 
成 功 辨 别 了 因子 间 的 交互 效应 ， 同 时 还 量化 了 每 个 预报 期 内 各 个 因子 的 贡献 度 ， 
从 而 选 出 了 与 预报 有 关 的 关键 驱动 因子 ， 最 终 该 方法 框架 得 到 了 较 对 比方 法 更 
准确 、 更 稳定 且 更 可 靠 的 预报 结果 。 陈 佳 雷 等 [bo 提出 了 一 种 时 空 图 卷 积 网 络 
的 径流 预报 方法 ， 首 先 构建 流域 内 站 点 的 拓扑 结构 图 ， 再 利用 邻接 矩阵 表示 地 
理 相 邻 站 点 之 间 的 时 空 依赖 性 ， 并 利用 CE 等 工具 分 析 相 邻 关 系 、 周 期 性 和 气 
象 要 素 与 径流 量 之 间 的 时 空 相关 关系 ， 最 后 构造 相应 的 带 有 注意 力 机 制 的 图 卷 
积 网 络 做 为 径流 预报 模型 。 他 们 以 金沙 江 流域 为 对 象 ， 验 证 了 方法 的 有 效 性 。 

干旱 是 另 一 类 重要 的 水 文 事件 和 影响 重大 的 自然 灾害 之 一 。 频 发 的 干旱 严 
重 影响 着 我 国 的 经 济 社会 安全 ， 特 别 是 黄河 流域 的 干旱 威胁 尤其 严重 ， 迫 切 需 
要 开展 流域 干旱 驱动 和 预测 的 研究 。 温 云 亮 等 [BO 利用 CE 理论 分 析 了 河南 省 
1951-2014 年 逐 月 气象 数据 ， 发 现在 众多 驱动 因子 中 ， 降 水 量 、 气温、 水 气压 
和 相对 湿度 对 该 地 区 干旱 发 生 的 影响 最 大 。Huang 和 Zhang [B1] 利用 CE 方法 
分 析 了 兰州 地 区 1957-2010 年 的 气象 数据 ， 以 构建 该 地 区 的 干旱 预测 模型 ， 发 
现 该 地 区 的 风速 、 气 温 、 水 气压 和 相对 湿度 是 与 干旱 最 相关 的 气象 因子 。 黄 春 
He [52] 研究 了 黄河 流域 的 气象 、 水 文 和 干旱 之 间 的 关系 ， 探 讨 了 干旱 的 驱动 机 
dl, 给 出 了 气象 干旱 和 水 文 干 旱 的 概念 , 并 提出 利用 CE 方法 探究 二 者 之 间 的 动 
态 非 线性 响应 关系 ， 通 过 分 析 黄 河流 域 不 同 区 域 水 文 站 的 气象 和 水 文 干旱 指数 ， 
得 到 了 水 文 干旱 对 气象 干旱 的 滞后 效应 时 间 ， 为 应 对 干旱 事件 提供 了 参考 。 牛 
$ [3] 利用 CE 等 工具 研究 了 黄河 流域 9 个 分 区 干旱 传播 的 时 空 特征 。 他 基于 
1961 至 2020 年 间 各 个 分 区 的 气象 、 土 壤 湿 度 和 径流 数据 ， 利 用 CE 计算 不 同 
类 型 非 平稳 干旱 指数 之 间 的 非 线性 相关 关系 ， 进 而 得 到 干旱 响应 时 间 尺度 、 干 
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量 传播 强度 和 干旱 传播 率 等 指标 ， 最 终 发 现 了 各 分 区 上 和 气象 干旱 、 农 业 干 旱 和 


水 文 干旱 之 间 传 播 敏感 度 和 传播 强度 的 强 弱 特征 。Ni 等 [54] 利 月 
T MI AYRE Copula 结构 选择 方法 ， 并 应 用 于 黄河 流域 
量 建 模 问 题 和 多 水 文 站 流量 相关 纤 


间 的 等 价 关系 ， 提 出 了 


干旱 识别 中 特征 变 


等 B5) 利 月 


JJ] CE M copula 等 理论 工具 


H MI 和 CE 之 


吉 构 建 模 问题 中 。Kanthavel 
， 提 出 了 一 种 综合 干旱 指数 ， 整 合 了 


标准 化 降雨 指数 、 干 旱 监测 指数 、 标 准 化 土壤 湿度 指数 和 标准 化 径流 干旱 指数 


等 四 种 指数 ， 


s + 


可 以 更 好 地 同时 反映 相关 水 文 气象 变 


量 和 不 同类 型 的 干旱 。CE M 


论 被 用 来 衡量 新 指数 与 原始 指数 之 间 的 相关 性 。 他 们 将 该 指数 应 用 于 印度 中 部 


的 达 布 带 (Tapti) 河流 域 的 单 月 和 
有 效 性 ， 并 揭示 了 该 地 区 干旱 的 时 空 分 布 特点 。Mohammadi 等 [B6] 利 月 
copula 和 CE 理论 的 三 种 相关 性 


度量 估计 方法 ， 在 伊朗 三 座 城市 


四 个 月 尺度 的 干旱 研究 中 ， 验 证 了 该 指数 的 
I 用 基于 
( 扎 黑 丹 、 恩 


泽 利和 马 什 哈 德 ) 1950-2017 年 的 水 文 观测 数据 的 基础 上 , 分 析 了 三 地 的 干旱 变 


tg (干旱 强度 、 


是 一 个 综合 性 的 科学 和 工程 问题 
rp. REA 最 天 程度 的 获取 水 文系 统 的 信息 。 
W, Xu 等 [57 B8 


要 工具 ， 


时 长 和 时 间 间 隔 ) 之 间 的 依赖 关系 。 
水 文 气象 观测 网 络 是 获取 水 文 信 ， 


息 的 基础 设施 。 如 何 设计 并 优化 网 络 站 点 


但 是 其 计算 是 
优化 的 水 文 观测 网 络 设计 方法 ， 
分 组 ; 2) 对 每 个 分 组 选择 


个 难 


水 文 变 量 的 非 高 


oe 
用 于 黄河 流域 伊 治 河水 文 观 测 


包括 两 步 : 1) 基于 CE 的 信 
最 优 的 站 点 组 合 。 基 于 CE 的 计算 方法 不 仅 能 够 处 理 
E ， 同 时 在 计算 性 能 上 也 更 可 靠 、 
网 络 和 上 海 雨量 观测 网 络 的 设计 。 


个 基本 的 设计 原则 是 观测 站 点 之 间 尽 量 统 
MI 是 衡量 统计 独立 性 的 主 
提出 了 一 个 基于 CE 的 多 目标 
息 传输 将 观测 站 点 


更 有 效率 。 作 者 将 方法 应 
结果 显示 ，CE 


的 方法 计算 精度 更 高 ， 


中 一 个 子 目标 基于 CE 而 设计 ， 用 于 衡量 元 余 信 息 量 。 
于 汾 河 径流 观测 网 、 北 京 了 


表明 了 方法 可 靠 
网 络 , 再 


且 可 以 应 用 于 
秋 信 息 的 原则 , Li [Bol luo] 提出 


高 维 的 多 变量 估计 情况 。 同 样 j: 


了 一 个 由 两 个 子 目 标 构成 的 | 网 络 优化 目标 ， 其 


分 析 河 流 的 干流 和 支流 之 间 的 相关 性 对 水 利 工 程 设计 、 洪 水 预防 和 风险 防 


控 十 分 重要 。 


三 峡 大 坝 作 为 长 江上 游 河 段 的 大 型 水 利 工程 ， 其 一 
是 洪水 控制 ， 研 究 该 河 段 的 主要 河流 相关 性 


区 以 及 太湖 盆地 的 雨量 
HAX. SE XT 提 出 利 月 
于 估计 的 胶 Copula 来 计算 站 点 间 的 CE 
CE 和 训 里 金 指 标的 站 点 优化 目标 , 利 
河流 域 1992-2018 年 的 日 降水 看 
EE 
网 络 更 有 效 地 获取 降水 
Cte ala Ud 
法 ， 提 高 了 计算 的 准确 
河流 域 的 14 个 水 文 站 点 ,进行 站 点 


量 观测 数据 ， 利 
结果 表明 该 方法 得 到 的 网 络 能 够 较 传统 类 似 方法 得 到 的 
关 信息 。 杨 惜 岁 pI 提出 一 个 结合 联合 炉 比 、 元 余 度 


作者 将 此 方法 分 别 应 用 
观测 网 的 设计 和 优化 ， 结 果 
| FRE Copula 来 构建 站 点 关系 
值 ， 在 此 基础 上 提出 了 结合 
用 滑动 窗口 法 选择 优化 站 点 。 他 们 基于 淮 
用 该 方法 对 该 流域 43 个 雨量 观测 


T 


ell 


基于 CE 理论 提出 了 新 的 MI 计算 方 


生 。 他 将 方法 应 用 于 美国 查 克 托 哈 奇 《Choctawhatchee) 


万 化 研究 ， 最 终 得 到 了 只 包含 5 个 站 点 的 网 


个 重要 功能 就 
HATERS 


对 工程 设计 和 安全 运行 
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ZME. Chen 和 Guo [44] 提出 利用 CE 来 计算 河流 相关 性 的 强度 ,他 们 将 方法 
应 用 于 包含 了 5 条 主要 干支 流 的 长 江上 游 河 段 ， 基 于 干支 流 1951-2007 年 间 的 
洪水 记录 数据 计算 河流 间 的 相关 性 。 他 们 发 现 河流 之 间 总 的 相关 性 并 不 高 ， 这 
与 该 地 区 的 气候 特征 相符 ; 相关 关系 最 强 的 是 岷江 和 沱江 ， 这 是 由 于 二 者 距离 
最 近 , 且 属 于 同一 降水 区 域 ; 金沙 江 和 岷江 、 沱 江 之 间 具 有 一 定 的 相关 性 ， 对 三 
峡 大 坝 的 洪水 控制 构成 了 一 定 的 威胁 ; 金沙 江 、 嘉陵 江 、 岷 江 和 沱江 对 长 江 盆地 
的 洪水 发 生 具有 显著 影响 。 

不 同 河流 和 区 域 的 洪水 事件 天 加 易于 形成 复合 洪水 事件 ， 但 不 同 洪水 过 程 
之 间 的 空间 关系 很 难 利用 现 有 相关 性 分 析 方法 来 准确 地 描述 和 评估 。Wang 和 
Shen [45] H TAEAE copula 和 相关 性 评估 的 方法 框架 ， 其 中 利用 了 CE 
理论 从 芯 Copula 来 估计 MI, CMI 和 R 统计 量 等 相关 性 强度 。 他 们 将 方法 用 
于 评估 长 江上 游 已 鉴别 的 102 个 复合 洪水 事件 中 两 种 极端 径流 序列 变量 (洪峰 
流量 和 洪水 流量 ) 之 间 的 关系 。 结 果 表 明 ， 该 框架 的 多 维 R JBE copula 模型 能 够 
更 好 地 描绘 复杂 多 样 的 水 文 相关 关系 ， 特 别 是 藤 结 构 表示 了 支流 洪水 汇 入 干流 
的 顺序 和 水 文 站 之 间 的 空间 位 置 关系 ; 该 框架 估计 的 三 种 相关 性 强度 比 传统 的 
相关 性 强度 更 好 地 反映 了 复杂 时 空 水 文系 统 的 复合 洪水 事件 中 的 非 线性 关系 。 
黄河 水 沙 调控 关系 到 黄河 治理 的 策略 制定 ， 科 学 认 知 评估 黄河 的 水 沙 通 量 
变化 特征 是 基础 性 的 科学 问题 ， 对 研判 黄河 泥 沙 情势 具有 重要 意义 。 特 别 是 近 
几 十 年 来 ， 受 气候 变化 和 人 类 活动 的 释 加 影响 ， 黄 河水 沙 含量 发 生 了 显著 变化 ， 
需要 准确 估计 径流 量 和 输 沙 量 的 分 布 变化 情况 。Copula 函数 是 分 析 这 种 分 布 的 
本 数学 工具 ， 但 此 类 问题 往往 观测 样本 较 少 ， 难 以 准确 估计 Copula 函数 的 
参数 。Qian 等 fhe] 提出 了 一 种 基于 CE 和 全 相关 (Total Correlation) 关系 的 
Copula 参数 估计 方法 ， 用 于 解决 在 样本 较 少 的 情况 下 的 Copula 参数 估计 问题 。 
他 们 将 方法 应 用 于 黄河 西柳 沟 河流 域 1960-2016 年 间 年 度 径流 量 和 输 沙 量 的 数 
据 的 分 析 ， 该 流域 在 1999 年 前 后 水 沙 关系 发 生 了 显著 变化 ， 但 数据 较 少 。 分 析 
结果 发 现 ， 对 于 1999 年 前 后 的 两 个 时 段 ， 新 方法 均 得 到 比 两 种 传统 方法 更 准确 
的 Copula 参数 估计 ， 对 数据 的 拟 合 更 好 。 

流域 分 区 是 水 文学 研究 的 重要 方法 ， 根 据 水 文 相 似 性 特征 划分 流域 内 相似 
性 区 域 ， 可 解决 无 水 文 观测 地 区 的 水 文 计算 等 难点 问题 。 径 流 响 应 是 重要 的 流 
域 水 文 特征 ， 根 据 流域 水 文 站 点 观测 之 间 的 相似 性 做 流域 分 区 是 一 种 基本 的 研 
究 路 径 。 传 统 的 流域 分 区 方法 基于 相关 性 评价 ， 往 往 难以 反映 水 文系 统 内 在 的 
复杂 关系 。 刘 舌 等 fu] 提出 采用 基于 CE 的 R 统计 量 来 衡量 节点 间 的 径流 相似 
性 ， 再 在 此 基础 上 利用 社团 检测 算法 对 流域 进行 分 区 。 他 们 将 方法 应 用 于 郡 阳 
湖水 系 ， 利 用 该 流域 的 水 文 站 观测 对 流域 进行 了 分 区 ， 并 将 方法 与 传统 的 K 均 
值 聚 类 方法 进行 了 对 比 。 结 果 表 明 ， 该 方法 能 够 有 效 捕捉 流域 内 湖 库 对 径流 的 
调节 作用 ， 从 而 得 到 较 传统 方法 更 合理 的 流域 分 区 。 

多 站 点 径流 生成 是 随机 水 文学 的 主要 问题 之 一 ， 生 成 的 流量 信息 对 任何 水 
资源 管理 都 是 必 不 可 少 的 。 在 径流 数据 记录 有 限 的 情况 下 ， 生 成 多 站 点 径流 数 


= 
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据 十 分 必要 ， 需 要 设计 相应 的 数据 生成 模型 。Porto 等 [is] 提出 了 结合 广义 线 
性 模型 (GLM) 和 Copula 函数 的 多 站 点 年 度 径流 生成 模型 ， 前 者 表示 时 序 结 
构 ， 后 者 为 多 站 点 的 空间 相关 性 建 模 。 在 评价 模型 性 能 时 ， 作 者 采用 了 包括 CE 
在 内 的 多 个 统计 描述 性 指标 ， 其 中 CE 用 来 衡量 非 线性 的 全 关联 。 作 者 将 该 模 
型 用 于 生成 巴西 的 雅 瓜 里 比 (Jaguaribe) -大 都 市 水 库 系统 的 多 站 径流 时 序数 据 ， 
结果 显示 模型 表现 出 了 优 于 当前 最 好 水 平 的 性 能 ， 特 别 是 在 衡量 多 站 相关 性 的 
CE 指标 上 ， 较 其 他 模型 更 接近 于 历史 观测 数据 。 

南水北调 工程 是 当今 世界 最 大 的 水 利 工程 ， 承 担 着 从 长 江 的 汉江 流域 丹 江 
口水 库 向 北方 地 区 城市 调 水 的 战略 任务 。 准 确 的 人 库 径流 预报 是 科学 合理 的 供 
水 调度 的 前 提 条 件 ， 能 够 使 工程 更 充分 高 效 地 利用 自然 界 的 水 资源 。 但 传统 方 
法 构建 的 预报 模型 很 难 满足 调 水 预报 精度 的 要 求 ， 原 因 在 于 传统 分 析 方 法 不 能 
处 理 水 文系 统 的 非 线性 特性 ， 导 致 了 构建 的 人 库 径流 预报 模型 不 合理 从 而 预测 
性 能 不 高 。 黄 朝 君 等 LO) 构建 了 丹江口 水 库 的 月 人 库 径流 预报 模型 ， 利 用 CE 
选择 了 一 组 气象 水 文 因子 作为 模型 的 输入 ， 得 到 的 模型 具有 明显 优 于 传统 模型 
的 预报 性 能 。 模 型 成 功 的 原因 在 于 采用 CE 选择 的 预报 因子 与 中 长 期 入 库 径流 
密切 相关 ， 印 证 了 印度 洋 个 极 子 事件 和 南海 副 高 活动 与 汉江 流域 夏季 强 降水 之 
间 的 内 在 联系 ， 符 合 自然 界 水 文系 统 的 运行 规律 。 

气候 变化 和 人 类 活动 等 因素 直接 影响 着 水 文系 统 循环 ， 使 得 径流 、 降 水 和 
蒸发 等 水 文 因素 发 生 了 不 同 程度 的 时 空 变化 。 因 此 ， 从 空间 角度 研究 降水 和 径 
流 等 水 文 因素 之 间 关系 ， 进 而 分 析 这 些 关系 时 空 变化 背后 的 气候 变化 和 人 类 活 
动 原因 是 水 文学 领域 的 重要 课题 ， 受 到 了 国内 外 学 者 的 关注 ， 对 水 资源 规划 管 
理 等 经 济 社会 活动 具有 科学 参考 价值 。 欧 佩 东 Bo) 利用 CE 等 工具 分 析 了 长 江 
流域 降水 、 蒸 发 、 潜 在 蒸 散 发 、 径 流 和 植被 指数 NDVI 的 流域 栅 格 数据 ， 从 得 
到 的 空间 相关 性 发 现 了 这 些 因素 的 空间 分 布 特征 ， 并 给 出 了 定性 的 地 理学 解释 。 
特别 是 ， 根 据 CE 估计 值 判断 ， 他 发 现实 际 蒸 散发 和 降水 对 年 径流 的 影响 较 高 ， 
而 年 径流 与 以 上 各 因素 的 空间 相关 性 具有 空间 异 质 性 特征 。 


6.8 气候 学 


气候 变化 是 气候 学 研究 的 课题 之 一 ， 它 不 仅 体现 在 水 文 气候 变量 幅度 上 的 
变化 ， 也 体现 在 变量 的 季节 和 周期 变化 的 分 布 上 。 这 种 变化 会 对 降水 和 气温 的 
强度 和 频率 造成 影响 ， 导 致 极端 天 气 (如 洪水 、 干 旱 和 热浪 等 ) 的 增加 。 降 水 和 
气温 的 相关 性 会 加 剧 联合 极端 天 气 的 发 生 和 强度 。 研 究 气候 变化 对 降水 和 气温 
相关 结构 的 影响 是 一 个 重要 的 问题 。Hao 和 Singh [bI] 利用 CE 度量 工具 研究 
了 气候 变化 对 这 种 相关 结构 的 影响 。 研 究 采 用 了 美国 德 克 萨 斯 州 达拉斯 市 沃 斯 
堡 (Fort Worth) 在 1948-2010 年 间 的 每 日 降水 和 气温 数据 ， 以 每 5 年 为 期 计 
算 温度 和 降水 之 间 的 负 CE 值 作为 相关 结构 强度 ， 发 现 该 地 区 的 温度 和 降水 之 
间 的 相关 结构 强度 ( 负 CE 值 ) 从 1948-1980 年 间 的 0.18 下 降 到 了 1948-2005 
年 间 的 0.06， 说 明了 气候 变化 对 该 地 区 水 文 气候 变量 之 间 关系 造成 了 影响 。 
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气候 评估 是 科学 应 对 气候 变化 的 基础 性 工作 ， 其 目标 是 监测 和 分 析 全 球 和 
地 区 气候 及 其 变化 ， 特 别 关注 于 变化 趋势 和 极端 气候 风险 等 。 气 候 分 类 是 指 根 
据 相似 气候 特征 将 地 区 分 类 ， 最 常见 的 Köppen 分 类 法 采用 的 气候 特征 是 温度 
模式 和 季节 性 降水 。Condino [52] 提出 了 一 种 基于 Jensen-Shannon 距离 的 动态 
分 类 算法 ,其 中 基于 JS 距离 的 分 类 准则 采用 了 基于 CE 理论 的 表示 方法 并 进行 
估计 。 他 将 方法 应 用 于 欧洲 气候 评估 问题 ， 根 据 1951-2008 年 间 欧 洲 气象 观测 
站 每 日 温度 和 降水 数据 对 欧洲 25 座 主要 城市 的 气候 进行 分 类 。 结 果 表 明 ， 其 提 
出 的 算法 成 功 区 分 了 分 别 属于 欧洲 南部 和 北部 气候 带 的 城市 群 ， 当 进一步 考虑 
南北 气候 过 渡 带 时 ， 算 法 也 对 欧洲 中 部 城市 给 出 了 与 实际 气候 情况 相符 的 合理 
的 分 类 结果 。 


69 气象 学 


环境 污染 是 现代 社会 的 主要 问题 之 一 。 从 气象 学 的 角度 分 析 大 气 污染 的 成 
因 ， 明 晰 其 内 在 机 理 ， 有 助 于 更 好 的 理解 污染 问题 ， 进 而 预测 、 干 预 和 管理 污 
染 。 理 解 大 气 系统 中 的 因果 关系 是 问题 的 关键 。 基 于 对 气象 因素 和 环境 污染 物 
的 观测 , 可 以 利用 统计 学 中 的 TE 方法 分 析 气象 因素 对 环境 污染 的 因果 关系 。 马 
f [10] 利用 其 提出 的 基于 CE 的 TE fii dk (Up. ， 分 析 了 北京 地 区 的 气 
象 和 PM2.5 连续 观测 数据 ps], GERIT VIA ACRI RON. PM2.5 浓度 的 24 小 
时 时 滞 内 的 因果 强度 变化 图 ( 见 攻 中。 变化 图 显示 ,四 种 气象 因素 对 PM2.5 He 
度 的 因果 强度 大 致 经 历 快速 升 高 和 缓慢 增加 两 个 阶段 。 作 者 还 特别 讨论 和 验证 
了 该 方法 的 平稳 性 假设 和 马尔 科 夫 性 假设 在 此 中 尺度 数值 分 析 问题 上 的 适用 性 。 
论文 所 得 到 的 因果 变化 图 反映 了 大 气 系统 运动 的 内 在 动态 特征 ， 增 加 了 人 们 对 
PM2.5 污染 的 气象 成 因 的 理解 。 同 时 ， 得 到 的 时 序 因果 关系 也 为 整合 气象 因素 ， 
构建 更 优 性 能 的 污染 预报 模型 提供 了 参考 依据 。( 更 多 内 容 见 B.4 节 ) 

有 效 的 大 气 污染 预测 对 于 污染 防 控 具有 基础 性 作用 ， 也 利于 保护 居民 健康 。 
但 当前 的 大 气 污染 (如 PM2.5 浓度 ) 预测 在 准确 性 和 稳定 性 上 还 很 难 满足 要 求 。 
开发 性 能 更 高 的 预测 模型 受到 了 广泛 的 关注 。 在 综合 考虑 了 传统 方法 的 不 足 的 
Al E, Wang 等 [b3] 提出 了 一 种 新 的 大 气 污染 预测 预警 方法 , 使 用 了 CE 和 多 
种 机 器 学 习 模型 的 组 合 方法 ，CE 方法 在 其 中 被 用 来 选择 对 PM2.5 浓度 波动 有 
影响 的 因子 ， 以 用 于 构建 最 终 模型 。 他 们 将 开发 的 方法 应 用 于 上 海 和 广州 两 地 
的 实际 大 气 污染 预测 预警 系统 ， 结 果 表 明 新 方法 能 得 到 较 其 他 对 比方 法 更 好 的 
预测 准确 性 和 稳定 性 。Wu 等 b4] 提出 了 一 种 基于 CE 的 PM2.5 预测 方法 ， 利 
用 CE 计算 气象 因素 与 大 气 污染 物 浓度 之 间 的 相关 性 来 选取 模型 输入 特征 ， 在 
基于 LSTM 和 进化 算法 相 结 合 的 方法 建立 预测 模型 。 该 方法 在 北京 地 区 2016 
年 的 历史 数据 上 取得 了 良好 的 预测 性 能 。Chen [bs] 利用 CE 从 多 种 因子 中 选 出 
影响 PM2.5 的 因子 ， 再 利用 自 注意 力 机 制 增强 的 时 序 卷 积 网 络 (TCNA) 构建 
预测 PM2.5 浓度 的 模型 ， 他 将 方法 应 用 于 北京 市 12 个 区 域 2013 至 2017 年 逐 
小 时 气象 和 污染 观测 数据 ， 得 到 的 预测 模型 具有 高 度 的 可 解释 性 和 预测 准确 度 。 
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图 10: 四 种 气象 因素 到 PM2.5 浓度 的 24 小 时 时 滞 内 因果 强度 变化 图 . 
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全 球 气候 变 暖 导致 我 国 华南 地 区 的 台风 强度 越 来 越 强 ， 强 台风 给 该 地 区 造 
成 了 严重 的 损失 。 根 据 台 风灾 害 的 观测 数据 预测 灾情 程度 ， 是 台风 灾害 的 研判 
和 应 对 的 重要 参考 。 但 台风 灾害 影响 因子 较 多 ， 且 与 灾情 之 间 具 有 非 线性 关系 ， 
给 预测 模型 构建 造成 困难 。 陈 燕 玉 等 [bo] 基于 CE 等 工具 ， 提 出 了 一 种 台风 灾 
情 预测 模型 构造 方法 。 他 们 基于 1985-2014 年 间 登 陆 或 影响 广西 的 44 个 台风 灾 
害 数据 ， 以 及 同期 与 致 灾 、 承 灾 和 防 灾 减 灾 相 关 的 灾情 统计 数据 ， 构 建 了 21 个 
灾害 影响 因子 ， 再 利用 CE 筛选 与 灾情 指数 最 相关 的 因子 ， 发 现 最 大 风速 、 最 
低 气压 、 暴 十 时 长 和 暴雨 极 值 与 灾情 指数 最 相关 ,能够 客观 地 反映 实际 情况 。 实 
验 也 表明 ， 利 用 CE 筛选 的 因子 构建 的 模型 的 预测 精度 要 高 于 同类 对 比方 法 构 
建 的 模型 ， 可 为 广西 台风 灾情 预测 提供 参考 。 


6.10 “环境 学 


大 气 污染 是 现代 城市 面临 的 主要 环境 问题 之 一 ， 严 重 影响 城市 运行 和 居民 
生活 。 对 大 气 污染 扩散 规律 的 分 析 是 环境 科学 的 重要 问题 ， 对 环境 监管 部 门 更 
好 地 了 解 污 染 规律 并 有 效应 对 具有 基础 性 的 指导 作用 。 大 量 的 城市 污染 气象 观 
测 网 点 生成 的 数据 , 有 助 于 分 析 扩散 规律 进而 对 污染 扩散 作出 预测 。 吴 京 鹏 [67] 
提出 了 一 种 节点 无 特征 网 络 链 路 预测 算法 ， 并 将 其 应 用 于 城市 大 气 污染 传播 路 
径 建 横 和 预测 问题 。 他 将 方法 应 用 于 兰州 市 辖区 环境 监测 站 网 2017 年 的 PM2.5 
观测 数据 ， 利 用 基于 CE 的 TE 算法 构建 了 传播 网 络 ， 再 应 用 提出 的 网 络 链 路 
预测 算法 预测 污染 传播 路 径 。 实 验 结果 表明 ， 该 方法 可 以 准确 发 现 污染 传播 路 
径 ， 为 兰州 城市 污染 治理 策略 制定 提供 了 理论 支撑 。 

AFLY (NOx) 是 火力 发 电厂 排放 的 主要 污染 物 之 一 ， 需 要 通过 实施 监测 
来 严格 管控 其 排放 浓度 。 电 厂 一 般 采用 SCR 脱 硝 反 应 器 的 中 和 方法 控制 NOx 
排放 浓度 , 但 控制 过 程 存在 大 延迟 , 无 法 做 到 精确 控制 ,一 般 采 用 软 测量 模型 巴 
测 与 SCR 控制 器 配合 来 达成 控制 目标 。 金 秀 章 等 [DS] 提出 了 一 种 VMD-Bayes- 
Lasso 相 结合 的 软 测量 算法 框架 ， 以 预测 NOx 排放 浓度 。 该 方法 框架 首先 利用 
CE 筛选 与 NOx 浓度 相关 的 系统 变量 , 以 预测 分 解 后 的 NOx 浓度 模 态 变量 , 再 
秋 加 得 到 最 终 预测 结果 ， 最 后 设计 了 基于 Lasso 算法 的 模型 误差 预测 模型 来 校 
正 预 测 结果 。 他 们 在 宁夏 某 660MW 燃 煤 电厂 的 数据 上 验证 了 该 算法 框架 ， 得 
到 了 较 对 比方 法 更 好 的 预测 精度 ， 其 中 ， 通 过 CE 方法 分 析 了 系统 变量 内 部 以 
及 和 目标 变量 之 间 的 相关 度 ， 达 到 了 精简 模型 和 提高 预测 精度 的 目的 。 

AA (NH) 是 大 气 中 的 重要 碱 性 气体 ， 在 大 气 氮 循环 中 发 挥 着 重要 作用 
也 因此 与 诸多 环境 问题 密切 相关 。 含 氨 气 溶胶 颗粒 物 是 空气 中 P M> s 的 重要 来 
源 ; 自然 界 中 氨 的 含量 变化 也 会 导致 土壤 酸化 、 水 域 营养 化 和 生物 多 样 性 降低 等 
诸多 问题 。 因此 , 研究 氮气 浓度 的 时 空 变化 及 其 影响 因素 , 具有 重要 的 科学 价值 
和 现实 意义 。 大 气 氨 含量 主要 来 自 人 类 的 农业 、 工 业 和 城市 交通 活动 , 长 三 角 地 
区 作为 我 国 的 经 济 发 达 地 区 和 人 口 密集 区 ， 氨 气相 关 的 环境 问题 尤其 不 容 忽视 。 
Xue 等 P) 利用 欧洲 气象 卫星 红外 大 气 干涉 仪 的 氨 气 柱 密度 数据 、NASA 的 


nor 
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NO: 柱 密度 数据 和 欧洲 的 ERAS 气象 再 分 析 数 据 ， 研 究 了 长 三 角 地 区 在 2014 
至 2020 年 间 氨 气 柱 密 度 的 长 期 时 空 变化 以 及 变化 背后 的 驱动 因素 。 其 中 ,他们 
利用 CE 方法 分 析 了 导致 氨 气 浓度 空间 变化 的 影响 因素 ， 通 过 计算 氮气 柱 密度 
SAAT. pH 值 、 人 口 密度 和 耕地 占 比 等 空间 变量 之 间 的 相关 性 强度 ， 发 现 
氮 浓 度 与 地 表 气 压 、 降 水 量 、pPH 值 和 耕地 占 比 等 因素 密切 相关 ， 表 明了 长 三 角 
地 区 的 氮 分 布 受到 自然 和 人 类 活动 因素 的 双重 影响 。 


= 


6.11 生态 学 


在 生态 学 中 ， 动物 运动 轨迹 研究 是 一 个 重要 的 基本 问题 ， 可 以 揭示 种 群 活 
动 规律 、 种 群 间 的 竞争 关系 ， 以 及 种 群 和 环境 资源 之 间 的 互动 等 基本 生态 学 过 
程 。 信 息 技术 在 生态 领域 的 利用 生成 了 大 量 的 动物 轨迹 数据 ， 对 这 些 数据 的 分 
析 需 要 合理 的 建 模 方法 。 环 线 数据 (cireular-linear data) 是 生态 学 中 的 一 种 常 
见 的 时 序数 据 类 型 ， 描 述 了 离散 化 的 动物 运动 过 程 ， 包 括 运 动 方 向 和 运动 距离 
两 个 变量 。 此 二 变量 之 间 通常 是 相关 的 ， 即 直线 运动 时 运动 方向 较 小 而 运动 距 
离 较 大 ， 转 向 运动 时 运动 方向 较 大 而 运动 距离 较 小 ， 同 时 运动 方向 变量 的 分 布 
一 般 是 对 称 的 ， 因 此 通常 采用 角度 对 称 的 环线 copula 函数 作为 工具 对 此 类 数据 
进行 建 模 ， 并 利用 基于 copula 的 相关 性 度量 来 衡量 二 者 之 间 的 相关 性 。Hodel 
和 Fleberg [60] 实现 了 环线 copula 的 建 模 和 分 析 的 算法 工具 包 Cylcop， 其 中 
包含 了 基于 CE 的 互信 息 估计 算法 作为 相关 性 度量 方法 ， 用 于 分 析 动 物 轨迹 数 
据 。 


6.12 动物 形态 学 


动物 形态 学 是 动物 学 最 古老 的 分 支 ， 研 究 动物 体 的 形态 和 解剖 结构 以 及 其 
在 发 育 和 进化 过 程 中 的 变化 规律 。 作 为 动物 学 的 基础 学 科 ， 形 态 学 的 研究 是 动 
物 分 类 的 基础 ， 比 如 鱼 类 的 形态 分 类 。 由 于 鱼 类 的 外 形 相似 , 对 其 种 类 进行 鉴别 
往往 会 出 现 偏差 , 这 就 需要 研究 鱼 类 结构 形态 之 间 的 相似 性 度量 问题 。 Escolano 
等 (6) 提出 了 一 种 图 形 形 似 度 度量 的 估计 方法 ， 将 图 形 转 换 为 多 维 流 形 嵌入 向 
量 ， 再 利用 CE 估计 方法 估计 向 量 之 间 的 MI 作为 图 形 相似 度 度量 。 他 们 将 方 
法 应 用 到 GatorBait 海洋 鱼 类 图 形 数据 库 ， 该 数据 库 包含 了 30 个 类 别 的 100 
个 鱼 类 外 形 三 角 网 格 图 形 。 由 于 每 类 对 应 的 是 鱼 类 属 而 不 是 种 ， 因 此 同一 类 别 
间 具 有 形态 差异 ， 给 分 类 造成 困难 。 他 们 利用 新 度量 方法 对 数据 库 中 的 鱼 类 图 
形 进行 分 类 ， 实 验 表 明 新 的 度量 方法 在 数据 集 上 得 到 了 较 传统 方法 更 好 的 分 类 
性 能 。 
鲍 是 一 类 重要 的 海洋 贝 类 , 具有 较 高 的 营养 价值 和 巨大 的 经 济 价值 。 鲍鱼 的 
形态 学 研究 是 通过 形态 学 变量 的 测量 来 研究 其 生长 过 程 和 种 群 分 布 等 问题 ， 对 
该 类 海洋 资源 的 管理 具有 重要 意义 。Purkayastha 和 Song [62] 提出 了 一 种 新 的 
因果 关系 度量 概念 ， 称 为 非 对 称 MI (AMI), ， 用 于 判断 变量 之 间 因果 预测 性 的 


6 X 


方向 ， 


6.13 
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农学 


态 学 参数 的 测量 
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并 基于 CE 理论 给 出 其 快速 且 鲁 棒 的 估计 方法 。 他 们 将 AMI 方法 应 用 于 
UCT 鲍鱼 数据 集 ， 分 析 了 鲍鱼 的 长 度 、 直 径 、 喘 高 和 体重 等 形 
数据 ， 明 上 晰 了 鲍鱼 生长 过 程 中 年 龄 与 这 些 变量 之 间 的 因果 关系 规律 。 


全 球 变 暖 导致 的 环境 变化 会 直接 影响 粮食 产量 ， 从 而 加 重 世 界 粮 食 安 全 问 


题 。 水 稻 是 最 重要 的 谷物 作物 之 一 ， 占 我 国 谷物 产量 的 四 成 左 
食 安 全 至 关 重要 。 研 究 气候 变化 如 何 影响 水 稻 产 量 
食 安 全 的 重要 问题 。 Zhang 等 (63,64) 利 月 


DSSAT Í 


， 对 我 国 的 粮 


F 给 出 对 策 是 关系 到 我 国 粮 


作物 模型 和 大 气 环流 模式 研究 了 气候 


变化 对 我 


国 南方 《江南 和 华南 ) 两 季 称 生长 和 产量 的 影响 及 对 策 。 研 究 采 用 了 
E 物 模型 中 的 模拟 水 稳 生 长 和 产量 的 CERES-rice 子 模块 和 CMIP6 中 


的 四 种 大 气 环流 模型 (GCMs)， 并 利用 CE 和 随机 森林 分 析 各 个 月 份 的 气象 因 
子 和 作物 产量 之 间 的 非 线性 关系 。 他 们 利用 每 个 GCM 的 27 组 数据 驱动 南方 


54 个 地 点 的 水 称 作 物 模 型 以 得 到 最 终 产 量 ， 


发 现 ， 


司 时 研究 了 播种 日 期 的 影响 。 研 究 


气象 因子 的 上 升 趋势 会 提前 水 稳 成 熟 期 并 降低 产量 ; 如 果 再 考虑 CO» 作 


用 ， 早 稳产 量 则 会 增加 ， 而 晚稻 仍 会 减产 ; 根据 CE 计算 结果 ， 两 季 称 产量 和 


CO» 浓度 的 关系 也 是 气象 因子 中 最 强 的 ; 提前 早稻 播种 和 延 后 晚稻 播 种 可 能 会 
增加 一 定 的 产量 。 该 研究 的 结论 为 政府 和 农民 应 对 未 来 的 气候 变 


为 采 月 


相应 的 适应 性 对 策 提 供 了 重要 参考 。 


化 指明 了 路 径 ， 


f 


预测 水 稳产 量 有 助 于 确保 粮食 安全 和 指导 农业 4 


FE 为 世界 三 大 主要 粮食 作物 之 一 ， 水 稳 在 农业 生产 中 具有 重要 地 位 。 准 确 


E 产 ， 是 一 个 农业 领域 的 重要 问 


题 。 水 稻 作 物 的 产量 不 仅 与 品种 自身 特性 有 关 ， 也 受到 天 气 等 环 
这 种 影响 具有 非 线性 ， 给 准确 预测 产量 构成 了 挑战 。 张 春 舌 等 [o5] 提出 了 一 种 


果 。 


6.14 


省 临安 区 真实 数据 的 基础 上 验证 了 该 方法 , 结果 显示 ，CE 86641 
环境 变量 之 间 的 非 线 性 关系 ，CE 与 CGRU 相 结合 的 方法 给 出 了 最 好 的 预测 结 


境 因 素 的 影响 ， 


基于 深度 学 习 技术 的 水 称 产量 预测 方法 ， 其 中 利用 CE 来 选择 与 产量 具有 非 线 
性 关系 的 环境 因素 变量 ， 并 利用 CNN 和 GRU 技术 构建 预测 模型 。 他 们 在 浙江 


认 知 神经 学 


[Kd E 


认 知 神经 学 通过 分 析 大 脑 活 动 的 各 种 模 态 的 观测 数据 ， 理 解 大 脑 作 为 信息 
处 理 器 官 ， 对 外 界 刺 激 的 表示 、 处 理 和 通讯 的 机 理 。 作 为 一 个 非 线 性 的 统计 度 


困难 ， 


提出 了 一 种 MI 佑 计 方 法 ， 称 为 高 
Information: GCMI), GCMI 方法 利 月 


量 ，MI 被 认为 是 分 析 大 脑 信号 间 关 联 的 理想 统计 工 


使 其 难以 得 到 广泛 的 应 用 。Ince 等 [67] 根据 MI 和 CE 之 


每 个 变量 的 边缘 函数 转化 为 高 斯 函数 ， 从 而 得 到 联合 高 斯 分 布 ， 


具 。 但 由 于 MI 的 估计 十 分 


间 的 等 价 关 系 ， 


itt Copula 互信 息 (Gaussian Copula Mutual 
有 了 CE 与 边缘 函数 无 关 的 性 质 ， 首 先 将 


再 根据 所 得 高 
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折 分 布 相关 和 矩阵 与 MI 的 关系 来 计算 MI. 


用 
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该 方法 简单 方便 ， 且 与 分 布 无 关 。 但 


由 于 从 高 斯 分 布 数据 计算 MI 是 有 偏差 的 ， 因 此 此 方法 还 需要 进行 校正 纠偏 操 


作 。Ince 等 将 GCMI 与 其 
检测 任务 的 EEG 数据 be 


也 MI 估计 方法 进行 了 对 比 ， 并 将 其 应 用 于 分 析 人 脸 
和 听觉 语音 刺激 任务 的 MEG 数据 [68]. 在 人 脸 检 测 


任务 的 实验 中 ，GCMI 被 用 来 计算 图 像 内 容 与 认 知 响应 之 间 的 关联 强度 ， 并 成 
功 选 出 认识 响应 敏感 区 域 (图 像 中 的 眼睛 部 分 )。 在 听觉 刺激 实验 中 ，Ince 等 研 
究 了 语音 中 的 节奏 特征 对 大 脑 听 觉 的 节律 同步 的 影响 。 通 过 对 语音 刺激 的 EEG 
响应 数据 的 分 析 ， 作 者 发 现 了 改变 音节 和 词汇 之 间 的 停顿 会 导致 听觉 delta 带 


同步 的 降低 。 在 此 实验 中 ，GCMI 是 数据 分 析 的 主要 工具 。 


在 GCMI 算法 的 基础 上 ，Comprisson 等 [69] 提出 了 基于 信息 论 的 群体 层 
面 分 析 大 脑 认 知 网 络 的 方法 , 将 非 参数 的 排列 操作 与 信息 度量 相 结合 , 用 于 分 析 


固定 效果 或 随机 效果 模型 ， 


以 适应 多 人 间 和 多 次 任务 间 的 变化 。 他 们 将 方法 应 
用 于 两 个 已 有 研究 的 数据 : 第 一 个 研究 分 析 人 执行 认 知 行为 映射 任务 时 的 MEG 
数据 中 的 高 Gamma 行为 (High Gamma Activity) , 


发 现 了 任务 相关 的 大 脑 网 


4, 涉及 多 个 运动 区 、 体感 区 和 视觉 皮层 区 域 等 ; 第 二 个 研究 分 析 奖 惩 学 习 任 务 
WB (anterior Insula) SEEG 数据 ， 发 现 了 奖惩 任务 的 响应 时 延 ， 以 及 奖 


和 惩 响 应 的 显著 差别 。 汪 方 角 等 [r0] 提出 了 一 种 老 
先 采 用 GCMI 构建 脑 认 知 网 络 ， 再 利 


年 人 认 知 水 平分 类 方法 ， 首 
用 GCMI 进行 特征 选择 ， 最 后 利用 SVM 


从 选择 的 脑 网 络 连接 进行 认 知 水 平分 类 。 他 们 将 方法 应 用 于 98 A] 42 À BJ 


EGS fMRI 数据 ， 发 现 提出 的 方法 能 够 所 
能 够 最 终 得 


到 较 同 类 方法 更 高 的 分 类 准确 率 。 


捉 数据 中 脑 区 间 的 非 线性 关系 ， 并 


语音 理解 是 人 脑 的 主要 认 知 功能 ， 研 究 人 脑 的 神经 活动 对 语音 信息 的 编码 


和 解析 是 认 知 神经 学 的 重要 问题 。 语 音 包 络 (speech envelope) 包含 了 语音 信号 
中 的 低频 时 序 信息 ， 研究 表明 其 可 以 解释 大 部 分 神经 响应 的 变化 过 程 ， 语 音 包 
由 


络 跟 踪 就 是 通过 脑 电 图 等 手段 研究 语音 包 络 及 其 神经 响应 之 间 关 系 的 问题 。 


于 大 脑 的 


TERA BES 


工具 ， 被 认为 能 够 捕捉 语音 包 络 和 神经 


Clercq 等 


LE 线性 特征 ， 常 用 的 线性 模型 不 能 很 好 的 表示 这 种 关系 。MI 作为 非 线 
响应 之 间 的 非 线性 关系 。De 
利用 根据 CE 理论 构建 的 GCMI 工具 ， 基 于 两 组 故事 讲述 语音 和 


相应 采集 的 EEG 数据 , 对比 了 线性 模型 和 MI 分 析 对 大 脑 非 线性 成 分 的 刻画 能 
力 。 实 验 结果 表明 MI 分 析 检 测 到 了 线性 模型 以 外 的 显著 的 非 线性 成 分 ， 证 明 
T GCMI 是 比 线性 模型 更 适合 于 研究 神经 包 络 跟踪 问题 的 工具 。 作 者 也 实验 验 
证 了 与 传统 的 MI 估计 方法 相 比 ， 基 于 CE 原理 的 GCM 方法 具有 鲁 棒 、 无 偏 


和 适合 多 变 


量 分 析 等 诸多 优点 。 


建立 神经 信号 之 间 的 因果 关系 对 理解 脑 连接 至 关 重 要 ， 因 果 关 系 连 接 反映 
了 在 脑 认 知 过 程 中 脑 网 络 内 部 不 同 区 域 之 间 的 信息 传输 方向 ， 刻 画 了 大 脑 认 知 
过 程 的 脑 区 之 间 动 态 关系 特征 。 相 比 于 传统 的 格 兰 杰 因果 检验 ， 无 模型 假设 的 
TE 更 适合 此 类 因果 分 析 任务 。Redondo 等 [r2] 基于 CE 理论 提出 了 一 种 新 的 


TE 概念 ， 


称 为 STE (Spectral Transfer Entropy), 


H 


于 计算 频 域 滤波 后 的 时 域 
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言 号 之 间 的 TE, 与 直接 在 原始 信号 上 计算 TE 相 比 , 在 特定 频 域 上 计算 的 STE 
更 具有 神经 学 意义 的 可 解释 性 。 他 们 将 方法 应 用 于 注意 缺陷 多 动 障碍 (ADHD) 
患者 EEG 信和 号 的 分 析 ， 利 用 STE 构建 因果 关系 脑 连接 网 络 ， 发 现 了 ADHD 
患者 与 健康 人 之 间 与 注意 力 相 关 的 脑 连 接 网 络 连接 的 不 同 。 实 验 结果 表明 ， 健 
康 人 在 与 注意 力 和 受 控 记 忆 存 取 相 关 的 0 和 a 频段 表现 出 明显 的 因果 联系 ， 而 
ADHD 患者 的 脑 网 络 连接 则 主要 在 ó 振荡 上 ， 可 解释 为 与 注意 力 缺 隐 有 关 。 

神经 元 特 化 (neuron specification) 是 指 其 具有 执行 特定 功能 的 属性 ， 可 以 
通过 研究 外 部 环境 刺激 和 神经 响应 信号 之 间 的 关系 来 鉴别 。MI 作为 一 种 非 线性 
关联 关系 度量 ， 是 研究 此 问题 理想 的 工具 。Pospelov 等 [r3] 利用 GCMI 方法 
计算 钙 效 光 信 号 和 环境 变量 、 动 物 行 为 之 间 的 相关 性 强度 ， 对 小 鼠 大 脑海 马 的 
CA1 区 记录 的 钙 信号 进行 了 分 析 ， 揭 示 了 与 动物 外 部 环境 相关 的 特 化 神经 元 ， 
如 位 置 神经 元 ， 以 及 与 其 行为 活动 相关 的 特 化 神经 元 ， 如 在 跑 、 直 立 和 静止 时 活 
动 的 神经 元 。 研 究 也 发 现 了 一 些 对 离散 变量 进行 响应 的 神经 元 ， 如 动物 的 场地 
位 置 (中 央 ， 靠 墙 和 角落 ) 和 其 速度 (休息 、 慢 和 快 )。 他 在 四 组 实验 中 一 共 检 
测 到 472 个 神经 元 的 781 种 特 化 。 


6.15 ”运动 神经 学 


肌肉 协同 (Muscle Synergy) 是 运动 的 基础 ， 指 人 完成 各 种 动作 时 肌肉 组 合 
之 间 时 空 上 的 动作 协同 。 人 体 的 运动 控制 系统 是 一 个 具有 宛 余 自由 度 的 系统 , 一 
般 认 为 神经 系统 通过 运动 基 元 的 组 合 协同 策略 来 完成 一 个 动作 。 运 动 控 制 研究 
的 一 个 重要 基本 问题 是 鉴别 运动 控制 中 简化 的 基本 肌肉 协同 策略 。 通 过 分 解 运 
动 过 程 的 肌 电 (Electromyographic: EMG) 信号 数据 理解 运动 控制 潜在 的 基本 
协同 机 理 是 基本 研究 手段 ， 但 如 何 处 理 信号 中 的 非 线性 是 主要 的 难题 之 一 ， 基 
于 CE 的 MI 估计 是 处 理 此 难题 的 有 力 工具 。Wnu 等 [rd [ro] 将 多 元 变 分 模 态 分 
解 与 基于 CE 的 MI 相 结合 ， 构 建 了 肌肉 耦合 网 络 模型 ， 基 于 表面 EMG 数据 
分 析 了 健康 人 伸手 运动 过 程 中 上 肢 肌 肉 间 的 时 空 协同 ， 成 功 刻画 了 肌肉 克 合 关 
系 强度 。Reilly 和 Delis [76] 提出 利用 基于 CE 的 GCMI 来 度量 EMG 信号 之 
间 的 时 空 关 联 关系 ， 再 利用 矩阵 分 解 的 降 维 方法 来 发 现 EMG 信号 时 空 关联 中 
的 基本 的 肌肉 协同 模式 。 他 们 采集 了 人 执行 点 到 点 动作 运动 的 EMG 数据 ， 将 
方法 应 用 于 数据 ， 得 到 了 有 生理 学 意义 的 肌肉 协同 时 空 模式 。Zhu 等 [r7] 提出 
了 基于 CE 的 表示 TE， 再 利用 R jË copula 估计 CE 进而 估计 TE。 他们 将 该 
方法 应 用 于 上 肢 肌 肉 间 耦 合 网 络 的 研究 ， 基 于 疲劳 / 非 疲劳 状态 下 上 肢 肌 肉 运动 
的 SEMG 数据 构建 了 肌肉 耦合 网 络 ， 发 现 疲劳 状态 下 的 肌肉 群 间 耦 合 关系 较 非 
疲劳 状态 逐渐 加 深 。 金 国美 等 Fa] 提出 利用 小 波 分 析 和 CE 估计 相 结合 的 方法 ， 
分 析 健 康 人 自主 运动 下 的 肌肉 疲劳 状态 的 SEMG 信号 数据 ， 发 现在 肘 关节 届 曲 
运动 中 ， 肌 间 耦 合 强度 在 Beta 与 gamma 频段 最 为 显著 ， 协 同 肌肉 对 耦合 强度 
比 后 抗 肌肉 对 耦合 强度 大 ; 疲劳 后 的 耦合 强度 相对 于 疲劳 前 有 所 增强 。 
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6.16 计算 神经 学 


计算 神经 学 是 利用 计算 理论 和 方法 来 研究 和 理解 神经 系统 的 功能 和 机 理 的 
学 科 ， 研 究 如 何 描述 生物 神经 元 对 信号 刺激 的 个 体 和 群体 响应 等 问题 。 神 经 可 
塑性 (neural plasticity) 是 指 神经 元 网 络 对 外 界 刺激 的 适应 性 结构 变化 , 构建 可 
塑性 理论 模型 是 计算 神经 学 关注 的 主要 问题 之 一 。Leugering 和 Pipa fd 基于 
Copula 理论 提出 了 一 个 神经 元 群体 可 塑性 的 理论 框架 ， 构 建 了 一 种 自 适 应 网 络 
模型 ， 可 以 在 未 知 模型 输入 变化 的 情况 下 保持 模型 输出 的 不 变性 ，CE 在 该 框架 
中 用 于 度量 神经 元 群 的 统计 特性 , 衡量 输入 输出 之 间 的 信息 量 。 神经 元 之 间 的 信 
息 传 输 分 析 是 计算 神经 学 的 另 一 个 重要 问题 。 分 析 计 算 神 经 元 之 间 的 信息 传输 
关系 需要 涉及 多 个 神经 元 之 间 的 MI 的 分 解 。 部 分 信息 分 解 (Partial Information 
Decomposition) 就 是 将 MI 分 解 为 协同 (Synergy), TT (Redundancy) 和 独 
特 信息 (Unique Information) 三 个 部 分 的 理论 。 基 于 CE 理论 和 方法 , Pakman 
等 RO) 提出 了 一 种 估计 独特 信息 的 方法 ， 并 应 用 于 分 析 多 个 神经 元 模型 的 信息 
处 理 。 


6.17 心理 学 


大 脑 是 一 个 分 布 式 的 网 络 系统 。 它 不 仅 控制 身体 ， 改 变 内 部 生理 状态 ， 也 
影响 多 个 高 级 过 程 。 同 时 ， 内 脏 信息 也 时 刻 受 到 大 脑 的 监控 ， 也 就 意味 着 内 脏 
过 程 也 会 反映 到 皮层 活动 中 。 内 脏 事件 相关 的 大 脑 活 动 研究 是 一 个 重要 的 话题 。 
植物 神经 系统 中 的 过 程 之 间 相互 关联 ， 而 信息 论 则 提供 了 研究 它们 之 间 关系 的 
工具 。Ravijts [B1] 研究 了 四 种 情绪 刺激 特征 ( 效 价 、 唤 醒 、 支 配 和 喜欢 ) 下 心 
跳 诱 发 脑 电位 (HEP) 的 时 间 交 互 近似 估计 问题 。 他 采用 了 用 于 情绪 分 析 的 生 
理 信号 DEAP 数据 集 ， 利 用 基于 CE 的 GCMI 方法 估计 了 MI、 协 同和 抑 余 等 
统计 量 ， 用 于 度量 不 同情 绪 刺 激 下 HEP 上 的 时 间 交 互 。 实 验 发 现 了 支配 和 喜欢 
情绪 刺激 下 HEP 上 的 时 间 交 互 现象 ， 第 一 次 揭示 了 情绪 感知 调制 的 HEP 的 时 
序 特性 。 


6.18 系统 生物 学 


系统 生物 学 的 一 个 主要 任务 是 通过 生化 运动 学 模型 ， 研 究 调控 、 信 号 传导 
和 代谢 过 程 之 间 的 交互 。 建 立 这 样 的 模型 需要 选择 合适 的 模型 输入 变量 ，MI 是 
变量 选择 的 工具 之 一 。 但 常用 的 KNN 的 MI 估计 常常 是 有 偏差 的 ， 需 要 进行 修 
iE. Charzyfiska 和 Gambin [82] 提出 了 偏差 校正 方法 ,并 发 现 当 利用 MI 和 CE 
之 间 的 关系 估计 MI 时 ,校正 效果 显著 。 作 者 将 方法 应 用 于 受到 广泛 研究 的 p53 
蛋白 和 Mdm2 连接 酶 之 间 的 负 反 馈 环 路 问题 模型 上 ， 结 果 显 示 此 方法 能 够 比 伟 
统 的 本 地 敏感 性 分 析 方法 得 出 更 准确 地 反映 系统 行为 的 模型 输入 输出 关系 的 分 
析 结 果 。 

系统 生物 学 对 分 子 生物 学 数据 分 析 的 主要 目的 之 一 是 建立 复杂 生物 现象 的 
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网 络 和 动态 机 制 ， 以 分 析 生命 组 织 的 功能 和 行为 。MI 在 构建 基因 通路 网 络 的 过 
程 中 发 挥 基础 性 作用 。Farhangmehr 等 [83] 首次 提出 在 网 络 构建 中 利用 CE 来 


估计 MI。 他 们 将 方法 应 月 


计算 效率 。 


6.19 ”生物 信息 学 


(Bioinformatics) 是 通过 算法 分 析 基 因数 据 〈 包 括 基因 表达 谱 
数据 ) 来 研究 生命 和 疾病 机 理 的 新 兴学 科 。 基 因 表达 谱 是 利用 DNA 微 阵 列 技术 


生物 信息 学 
) 


于 醇 母 细胞 周期 数据 ， 将 分 析 得 到 的 动态 网 络 与 京都 


基因 组 学 百科 数据 库 进 行 了 对 照 。 实 验 结果 显示 ， 利 用 CE 来 估计 MI 提高 了 


在 基因 分 子 层面 观察 某 一 生命 组 织 动 态 得 到 的 数据 ， 从 而 能 够 在 基因 组 水 平 上 
反映 生命 系统 的 各 种 现象 和 和 机理 。Wieczorek 和 Roth 图 提出 了 一 种 研究 时 间 
序列 数据 之 间 相 互 作用 的 分 析 方 法 ， 称 为 因果 压缩 (Causal Compression) 。 


传统 的 分 析 全 时 间 序 列 之 间 的 因果 关系 不 同 ， 该 方法 研究 了 


与 


于 定向 信息 (Di- 


rected Information) 分 解 的 时 间 序 列 间 相 互 因果 作用 的 稀 朴 表达 ， 并 据 此 给 出 


了 时 序 因果 分 割 和 因果 二 分 图 发 现 两 类 问题 的 解法 。 


T CE 与 MI 之 间 的 等 


价 性 ， 作 者 证 明了 该 方法 只 与 数据 分 布 的 Copula 密度 函数 有 关 ， 并 据 此 设计 了 


求解 方法 。 作 者 将 该 方法 应 月 


HT NCBI 数据 库 中 的 人 类 C 型 肝炎 病毒 感染 数据 


(NCBI/GEO 查询 号 : GSETI23), 研究 了 接受 了 上 聚 乙 二 醇 干扰 素 和 利 巴 韦 林 治 
疗 的 重组 丙 型 肝炎 病毒 核心 蛋白 基因 型 1 感染 的 基因 表达 谱 时 序数 据 ， 关 注 了 


在 干扰 素 信 号 传导 中 


导 抗 病毒 基因 IFIT3， 分 别 生成 了 二 者 在 有 效 救治 和 无 效 救治 病人 内 相互 人 


的 不 同 。 研 究 发 现 ,根据 分 析 结 


具有 重要 交互 角色 的 两 个 基因 : 转录 子 STAT1 和 干扰 素 诱 


FE 用 


果 , 干扰 素 疗 法 消除 了 大 多 数 有 效 救治 病人 体内 


两 种 基因 之 间 的 关联 ,而 无 效 救治 病人 体内 的 关联 则 不 受 影响 。 同时 , 分 析 表 明 


两 种 病人 救治 前 后 二 者 之 间 均 存在 因果 交互 作 月 


的 IFIT3 对 后 期 的 STAT1 的 影响 更 显著 ， 这 与 已 有 研究 结论 相符 合 。 
很 多 疾病 的 发 生 与 基因 结构 变异 有 关 。 找 贝 数 变异 (Copy Number Varia- 
tions: CNVs) 指 长 度 大 于 1kb 的 DNA 片段 的 变异 ， 在 人 类 基因 组 中 大 量 存 


在 。 作 为 重要 的 


有 ， 但 对 于 有 效 救治 病人 ， 早 期 


因 变 异 ，CNVs 包含 了 大 量 DNA 序列 、 疾 病 点 和 功能 单元 ， 


能 为 疾病 研究 提供 线索 。 研 究 表明 ， 多 种 癌症 的 形成 和 发 展 与 不 同 的 CNVs 有 


关 。 因 此 ， 发 现 不 同 基因 的 CNVs 与 不 同 痛 症 之 间 的 关系 有 助 于 研究 癌症 病因 


和 诊断 方法 。 从 大 量 的 CNVs 的 


因 特 征 中 选择 出 与 癌症 相关 的 特征 是 生物 信 


息 学 的 一 个 重要 问题 。Wu 和 Li BORG) 提出 了 一 种 基因 选择 方法 ， 称 为 相关 元 
余 和 交互 分 析 (Correlation Redundancy and Interaction Analysis: CRIA) Jy 
ik, fiin CNVs 选择 与 癌症 有 关 的 基因 ， 以 用 于 癌症 分 类 。CRIA 方法 利 月 
CE 的 多 变量 相关 性 特性 ， 设 计 了 基因 特征 交互 强度 度量 ， 用 于 筛选 与 癌症 类 型 


相关 性 强 的 基因 。 
其 中 的 6 种 瘤 症 数据 ， 选 择 出 了 200 个 与 癌症 有 关 的 


他 们 将 该 方法 应 用 于 cBioPortal 的 瘤 证 基因 组 数据 ， 利 月 


效 性 ， 他 们 基于 


H í 


H í 


因 。 为 了 验证 算法 的 有 


严 利 桑 那州 立 大 学 的 数据 将 方法 与 其 他 8 种 基因 选择 算法 进行 
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了 对 比 ， 结 果 显 示 CRIA 方法 选择 的 基因 能 够 更 准确 地 预测 癌症 类 型 。 

基于 基因 测序 数据 推理 构建 基因 调控 网 络 是 生物 信息 学 的 主要 问题 之 一 ， 
目的 是 理解 基因 功能 和 识别 基因 表达 的 动态 过 程 。 单 细胞 测序 技术 能 够 同时 测 
量 大 量 单个 细胞 的 全 基因 组 表达 情况 ， 时 序 单 细胞 测序 数据 则 反映 了 细胞 中 基 
因 调控 动态 过 程 , 因此 可 以 利用 TE 等 非 线 性 时 序 因果 分 析 工 具 发 现 基因 调控 网 
t. POE bj 提出 了 一 种 基于 TE 因果 关系 分 析 的 基因 调控 网 络 构建 方法 , 称 
为 GRN-PAGATE, 其 中 采用 了 基于 CE 的 TE 佑 计 方 法 。 他 分 别 在 DREAM3 
挑战 中 的 Ecoli 数据 和 小 鼠 胚 胎 早 期 血液 发 育 的 单 细胞 测序 数据 上 验证 了 该 方 
法 ， 并 与 同类 方法 进行 了 对 比 。 实 验 结果 表明 ， 该 方法 在 Ecoli 数据 上 具有 与 
GRNTSTE 同等 的 性 能 ， 略 高 于 DynGENI3 和 SCRIBE 等 同类 方法 ; 在 小 鼠 
胚胎 数据 上 ， 该 方法 能 够 有 效 发 现 其 他 方法 未 能 发 现 的 关键 基因 调控 关系 ， 性 
能 优 于 同类 对 比方 法 。 


6.20 ”临床 诊断 学 


心脏 病 是 最 常见 的 临床 疾病 之 一 。 医 生 已 经 积累 了 丰富 的 心脏 病 临床 诊断 
经 验 ， 可 以 通过 各 种 生理 测量 结果 作出 诊断 决策 。 在 此 经 验 基础 上 开发 智能 临 
床 诊断 模型 是 业界 长 期 追求 的 目标 ， 开 发 此 类 模型 的 关键 在 于 选择 一 组 生理 测 
量变 量 来 构建 预测 诊断 模型 。 基 于 著名 的 UCT 心脏 病 数据 集 由 9 引 ， 马 健 BJ 提 
出 采用 CE 作为 变量 选择 方法 , 用 以 选择 一 组 生理 变量 构建 诊断 模型 。 该 数据 集 
包含 了 来 自 世界 四 地 真实 的 临床 心脏 病 生 理 测量 和 诊断 数据 ， 其 中 13 个 生理 测 
量变 量 被 医学 专家 认定 为 是 临床 相关 的 。 实 验 结果 表明 ，CE 方法 选择 出 了 13 
个 临床 医生 认定 变量 中 的 11 个 变量 ,是 对 比方 法 中 最 多 的 ， 从 而 得 到 了 最 好 的 
预测 准确 率 。 同 时 ，CE 方法 还 发 现 了 认定 变量 以 外 其 他 与 诊断 相关 的 变量 , 为 
临床 进一步 检验 提供 了 新 的 参考 。( 更 多 内 容 见 B. 引 

糖尿 病 是 另 一 种 常见 临床 疾病 。 对 糖尿 病人 的 病情 管理 与 临床 诊治 结果 (发 
病 率 和 致死 率 ) 密切 相关 ， 因 此 建立 严格 的 糖尿 病 患 者 住院 管理 流程 对 其 安全 
十 分 重要 ， 这 就 需要 对 病情 管理 标准 进行 分 析 研究 。 为 了 评估 住院 患者 的 救治 
效果 ， 美 国 业界 建立 了 健康 事实 (Health Facts) 数据 集 P86], WAT 130 所 
美国 医院 和 救治 网 络 的 糖尿 病 患者 的 数据 。 基 于 该 数据 集 1999 至 2008 年 的 10 
年 间 101,721 名 住院 患者 的 数据 ，Mesiar 和 Sheikhi [88] 利用 CE 变量 选择 方 
法 建立 预测 模型 ， 用 于 从 其 他 49 个 变量 预测 “是 否 已 用 药 ”变量 ， 取 得 了 良好 
的 预测 效果 , 在 仅 选 择 使 用 20 个 变量 的 情况 下 就 获得 了 97.2% 的 准确 率 ， 增 进 
了 对 用 药 相 关 变 量 的 认识 ， 构 建 了 合理 用 药 评价 模型。 

癌症 预后 是 指 基于 癌症 病情 的 临床 表现 和 诊断 结果 ， 对 病情 的 未 来 发 展 进 
行 评估 ， 以 帮助 进一步 的 临床 决策 。 临 床 评估 考虑 的 预后 因子 在 评估 中 至 关 重 
要 ， 但 又 常常 数量 众多 ， 需 要 进行 分 析 选 择 。 比 如 ， 肺 癌 的 预后 因子 就 多 达 百 
种 。 预 后 模型 是 在 预后 因子 的 基础 上 建立 的 病人 风险 预测 模型 ， 是 癌症 治疗 中 
重要 的 临床 工具 。 马 健 R9 提出 了 一 种 基于 CE 的 生存 分 析 变 量 选择 方法 ， 并 
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将 其 应 用 于 预后 因子 的 选择 问题 ， 以 建立 预测 病人 生存 时 间 的 预后 模型 。 他 基 
于 两 个 公开 的 肺癌 数据 验证 了 该 方法 ， 发 现 其 能 选择 符合 临床 标准 的 预后 因子 ， 
获得 较 同 类 方法 更 好 的 预测 模型 ， 在 保证 模型 可 解释 性 的 同时 具有 更 好 的 预 
测 性 能 。 

乳腺 癌 是 女性 最 常见 的 恶性 肿瘤 之 一 ， 在 我 国 的 发 病 率 和 死亡 率 都 有 逐年 
上 升 的 趋势 , 严重 威胁 着 女性 的 喘 体 健康 和 家 庭 垃 福 。 利用 统计 方法 分 析 临 床 数 
据 并 构建 诊断 模型 来 辅助 临床 诊断 决策 ， 可 以 提高 医生 工作 效率 并 降低 误诊 率 ， 
从 而 促进 患者 健康 改善 。 付 金 露 pq 提出 采用 特征 选择 的 方法 构建 乳腺 癌 患 者 
预后 模型 , 采用 了 Lasso, CE 和 RFREF 三 种 特征 选择 方法 , 分 析 了 SEER 数 
据 库 中 2010-2014 年 的 乳腺 瘤 患 者 临床 诊断 数据 ， 利 用 三 种 方法 选择 的 特征 分 
别 构建 了 逻辑 回归 、 随 机 森林 、XGBoost 和 Stacking 四 种 模型 ， 用 以 预测 患者 
5 年 生存 状态 。 结 果 表 明 , 利用 CE 选择 的 特征 构建 的 逻辑 回归 模型 给 出 了 最 高 
的 预测 准确 率 (96.84%)。 

白内障 是 眼科 的 常见 疾病 , 是 导致 患者 失明 的 最 主要 病因 。 白内障 超声 乳化 
手术 (Phacoemulsification) 是 世界 各 国治 疗 白内障 的 首选 手术 治疗 方式 。 尽 管 
该 手术 已 十 分 成 熟 ， 但 临床 仍然 可 能 会 导致 术 后 角膜 水 肿 等 并 发 症 ， 从 而 影响 
视力 恢复 并 造成 患者 不 适 。 构 建 基 于 风险 因素 的 角膜 水 肿 风 险 预 测 模型 在 临床 
十 分 必要 。Luo 等 提出 利用 CE 方法 构建 术 后 角膜 水 肿 风 险 预 测 模型 ， 将 
方法 应 用 于 临床 178 名 患者 的 数据 ， 从 数据 的 17 个 变量 中 筛选 预测 变量 ， 最 终 
将 临床 预测 模型 使 用 的 四 种 变量 糖尿病、 最 佳 矫正 视力 、 ee n 
散 能 量 ) 减少 为 两 种 〈 最 佳 矫 正视 力 和 累积 耗 散 能 量 ) ， 且 不 影响 预测 精度 。 
果 分 析 表 明 ， 利 用 CE 得 到 的 预测 模型 具有 临床 应 用 价值 ， AN 性 
能 的 情况 下 减少 预测 需要 收集 的 临床 信息 

EZI WM Sit (Aortic ao 是 一 种 常见 的 心脏 辨 膜 疾 病 , 主要 症 
状 是 在 心脏 舒张 期 , 血液 从 主动 脉 回流 到 左 心室 。 主 动脉 瓣膜 置换 手术 是 主动 脉 
办 反 流 的 传统 治疗 方式 之 一 。 左 心室 射 血 分 数 (Left Ventricle Ejection Fraction: 
LVEF) 是 一 项 衡量 心脏 功能 的 重要 指标 ， 研 究 其 在 手术 前 后 的 改善 关系 可 以 
为 铁 膜 置换 手术 时 机 选择 和 效果 预测 提供 参考 证 据 。Sunoj 和 Nair [92] 利用 
survival copula 扩展 了 CE 概念 ， 提 出 了 一 种 称 为 Survival Copula Entropy 
(SCE) 的 新 概念 , 用 于 衡量 生存 函数 相关 变量 之 间 的 依赖 关系 。 他 们 将 SCE 应 
用 于 主动 脉 办 置换 手术 临床 数据 ， 发 现 了 手术 前 后 LVEF 之 间 的 正 相 关 关 系 。 
脑 肿 痛 是 一 种 高 致死 率 肿瘤 , 约 占 全 身 肿 痛 的 5%， 近 年 来 在 我 国 发 病 率 时 
-o 脑 肿瘤 病变 具有 形态 多 样 、 位 置 不 定 的 特点 ， 诊 断 难度 大 ， 基 于 无 侵 

医学 影像 的 分 类 识别 是 主要 的 临床 诊断 方式 。 利 用 深度 学 习 方法 ， 从 肿瘤 医 
21 量 特征 并 构建 诊断 模型 ， 可 以 辅助 医师 的 临床 诊断 ， 因 此 得 到 了 
大 量 的 研究 。 如 何 提取 和 选择 图 像 的 定量 特征 是 构建 辅助 诊断 模型 的 关键 问题 。 
潘 红 宇 pa) 提出 了 一 种 此 类 特征 选择 方法 ， 首 先 利用 CE 等 相关 性 度量 初始 化 
特征 集合 ， 再 利用 灰 狼 优化 算法 以 分 类 性 能 为 目标 优化 特征 集合 。 他 利用 来 自 


gl 
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重庆 医科 大 学 附属 第 一 医院 、 西 南 医院 和 四 U a ee 
突变 的 低级 别 脑 胶 质 瘤 患 者 影像 数据 ， 提 取 了 五 类 共 5530 个 影像 组 学 特征 ， 
20 O T 5 3 IRE 
下 得 到 了 最 优 的 分 类 性 能 ， 且 所 选 特征 与 ATRX 突变 特征 状态 相关 ， 具 有 作为 
生物 标志 物 的 潜力 。 

脉搏 波 是 传统 中 医 的 主要 问 诊 方式 ， 因 其 携带 了 复杂 多 样 的 病理 信息 ， 在 
一 定 程度 上 反映 了 心血 管 系统 的 生理 状态 。 传 统 中 医 的 诊 脉 主要 依靠 名 医 的 个 
人 经 验 ， 研 究 脉搏 波 数据 的 分 析 算法 ， 对 糖尿 病 和 高 血压 等 常见 疾病 的 无 创 诊 
断 具 有 重要 意义 ， 有 助 于 传统 中 医 的 科学 化 发 展 。 汤 宇 飞 PA 提出 了 一 种 基于 
图 卷 积 神经 网 络 的 多 模 态 脉搏 波 诊断 算法 ， 通 过 将 脉搏 波 转换 为 包含 互补 的 病 
理 信息 的 三 通道 图 像 , 再 利用 ResNet 提取 图 像 特征 , 最 后 利用 CE 等 相关 度量 
得 到 反映 脉搏 波 信号 间 时 间 相关 性 的 邻接 矩阵 构建 图 卷 积 神经 网 络 ， 从 而 进行 
疾病 分 类 诊断 。 他 在 实际 腕 部 和 指 尖 的 脉搏 波 数据 的 基础 上 ， 对 高 血压 和 糖尿 
病 患 者 的 健康 状态 进行 分 类 ， 结 果 表明 算法 可 以 得 到 99% 以 上 的 预测 准确 率 。 


pui 


6.21 老年 医学 


阿尔 兹 海 默 病 (Alzheimer’s disease, 也 称 痴呆 症 ) 是 老年 人 面 对 的 主要 神经 
退行 性 疾病 之 一 , 临床 表现 为 认 知 能 力 的 过 度 衰 退 等 。 早期 第 查 和 诊断 可 以 帮助 
痴呆 症 患 者 和 家 庭 及 早 干预 并 管理 病情 发 展 , 可 以 有 效 提高 病人 生活 质量 , 降低 
家 庭 和 社会 成 本 和 负担。 简易 精神 状态 量 表 (Mini-Mental State Examination: 
MMSE) 是 临床 广泛 采用 的 认 知 能 力 筛 查 工具 之 一 。 马 健 p3) 通过 利用 CE 分 
析 了 手指 扣 击 运动 (finger tapping) 的 特征 和 MMSE 之 间 的 关联 强度 ， 发 现 一 
组 与 MMSE 相关 联 的 特征 ， 包 括 扣 击 频率 (或 扣 击 次 数 或 扣 击 平均 时 间 间 隔 ) 
等 。 在 此 关联 关系 的 基础 上 , 他 们 构建 了 从 手指 扣 击 特征 到 MMSE 的 预测 模型 ， 
取得 了 良好 的 预测 效果 。 此 预测 模型 有 望 用 于 痴呆 证 等 疾病 的 认 知 能 力 筛 查 工 
作 中 。 


帕 金森 病 (Parkinson's disease: PD) 是 另 一 种 常见 的 神经 退行 性 疾病 , 临床 
表现 为 动作 迟缓 和 运动 功能 障 得 等 症状 ,重复 经 版 磁 刺 激 (repititive transcranial 
magnetic stimulation: rTMS) 是 利用 脉冲 磁场 作用 于 中 枢 神 经 系统 ， 以 改善 生 
理 功能 的 临床 治疗 技术 ， 广 泛 应 用 于 神经 、 精 神 类 疾病 的 治疗 ， 并 在 近年 应 用 
于 PD 康复 治疗 的 研究 中 ， 以 期 缓解 患者 症状 并 改善 运动 功能 。 李 润泽 等 
WIT rTMS 对 PD 患者 运动 症状 辅助 治疗 的 神经 调控 机 制 ， 利 用 基于 CE 的 
GCMI 等 方法 分 析 了 rTMS 治疗 前 后 的 EEG 数据 ， 构 建 了 脑 功能 网 络 连 接 矩 
阵 并 得 到 3 种 网 络 特征 参数 。 实 验 结果 表明 rTMS 主要 改变 PD 患者 的 beta 
和 gamma 振荡 ， 其 中 运动 皮层 的 相应 变化 可 能 与 运动 功能 改善 有 关 。 

跌倒 是 老年 人 面 对 的 重大 健康 风险 之 一 , 需要 科学 管理 和 及 早 干 预 。 跌倒 巴 
测 是 管理 跌倒 风险 的 重要 手段 之 一 。 起 立行 走 试验 (Timed Up and Go: TUG) 
是 一 种 主要 的 跌倒 风险 评估 工具 。 马 健 PÅ 提出 了 一 种 结合 视频 分 析 和 机 器 学 
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习 技术 的 跌倒 风险 预测 方法 。 该 方法 首先 从 老年 人 进行 TUG 测试 的 视频 中 分 
析出 人 体 3D 姿态 信息 , 再 由 一 段 时 间 的 姿态 信息 序列 计算 出 一 组 步 态 特征 , 通 
过 利用 CE 分 析 步 态 特征 和 跌倒 风险 指数 之 间 的 关联 关系 ， 选 择 出 一 组 与 风险 
关联 的 步 态 特征 (包括 步 幅 、 步 态 速度 和 步 态 速度 的 方差 等 ) ， 最 后 用 此 特征 作 
为 输入 构建 跌倒 风险 的 预测 模型 。 该 方法 在 真实 数据 上 的 实验 显示 了 和 良好 的 预 
测 效 果 。 此 分 析 结 果 也 表明 了 步 态 特征 反映 的 行动 能 力 与 跌倒 风险 之 间 的 内 在 
联系 ， 使 得 模型 具有 临床 意义 的 可 解释 性 。 

在 以 上 两 个 研究 的 基础 上 ， 马 健 ps] 还 利用 CE 对 手指 扣 击 运动 特征 数据 
和 步 态 特征 数据 进行 了 联合 分 析 ， 发 现 了 某 些 手指 运动 特征 与 跌倒 风险 之 间 具 
有 一 定 的 关联 性 。 这 一 发 现 为 首次 发 现 ， 揭 示 了 衰老 过 程 中 认 知 能 力 和 行动 能 
力 之 间 的 关联 ， 提 供 了 科学 实验 证 据 ， 加 深 了 对 衰老 的 生理 特征 的 认识 和 理解 。 


= 
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6.22 ”精神 病 学 


抑郁 症 是 一 种 常见 的 情绪 相关 的 心理 精神 障碍 , 全 世界 约 有 3.5 亿 名 患者 为 
此 病 所 困扰 ， 对 其 进行 研究 对 人 类 健康 具有 重要 意义 。 脑 电 图 (EEG) 是 一 种 非 
侵入 式 的 大 脑 活动 电信 号 测量 手段 , 广泛 应 用 于 大 脑 疾病 的 研究 中 脑 功能 网 络 
是 在 EEG 信号 基础 上 构建 的 反映 大 脑 活动 的 功能 性 指标 ， 可 采用 MI、 相 干 性 
等 多 种 方法 构建 此 类 网 络 。 张 婷 婷 等 po,luo0] 提出 基于 相干 性 虚 部 (Tmaginary 
part of Coherency) 构建 的 脑 网 络 连通 性 指标 来 研究 抑郁 证 患者 识别 问题 。 他 们 
利用 CE. Relief 过 滤 等 特征 选择 方法 对 脑 电网 络 连 通 特征 进行 选取 ， 发 现 利 用 
CE 和 Relief 过 滤 联 合 得 到 的 相干 性 在 线 反馈 指标 特征 集合 能 够 有 效 区 分 抑郁 
证 患者 和 健康 人 群 。 


6.23 ”公共 卫生 学 


流行 病 是 公共 卫生 学 的 重要 话题 ， 流 行 病 患者 的 及 时 诊断 对 控制 流行 病 的 
传播 至 关 重 要 。 感染 了 流行 病毒 的 病人 往往 伴 有 发 热 等 症状 , 很 难 与 正常 的 发 热 
病人 进行 区 分 。 目 前 正在 流行 的 新 型 冠状 病毒 患者 就 具有 这 样 的 发 热 症状 ， 基 
于 临床 数据 开发 能 够 区 分 病毒 感染 者 和 正常 流感 病人 的 技术 成 为 一 个 紧迫 的 问 
题 。 然 而 ,相关 的 症状 有 10 几 种 ， 如 何 选择 合适 的 变量 集合 成 为 研究 成 功 的 关 
键 。Mesiar 和 Sheikhi [B8] 基于 CE 变量 选择 方法 , 利用 真实 的 临床 数据 , 分 析 
了 新 冠 患者 诊断 相关 的 19 种 症状 变量 ， 发 现年 龄 、 疲 劳 和 恶心 呕 叶 是 最 重要 的 
诊断 变量 ， 可 以 使 诊断 达到 85% 的 诊断 准确 率 ， 如 果 将 诊断 变量 增加 到 15 个 ， 
准确 率 可 以 提高 到 91.496. 
高 血压 是 全 球 首要 致死 病因 ， 对 人 群 健康 构成 严重 威胁 。 全 基因 组 关联 研 
究 表明 多 个 基因 与 高 血压 密切 相关 。 已 有 多 个 研究 报道 1 型 细胞 膜 钙 离子 转运 
酶 基因 (ATP2B1) 与 收缩 压 和 舒张 压 相关 联 。 该 基因 有 21 个 CpG 位 点 。 研 
究 该 基因 及 其 CpG 位 点 与 高 血压 的 关系 是 一 个 新 的 重要 问题 。Purkayastha 和 
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Song [62] 提出 了 一 种 新 的 非 对 称 可 预测 性 概念 ， 称 为 非 对 称 MI (AMI), ， 并 利 
用 CE 理论 给 出 了 其 估计 方法 。 他 们 将 该 方法 应 用 于 ELEMENT 数据 集 ， 分 析 
525 个 年 龄 在 10-18 岁 之 间 的 儿童 的 数据 ， 发 现 ATP2B1 与 舒张 压 相 关联 ， 证 
实 了 已 有 的 发 现 ; 同时 发 现 该 基因 的 CpG 位 点 CG17564205 与 舒张 压 相关 联 ， 
且 根 据 AMI 判断 ， 每 张 压 对 该 位 点 具有 预测 性 ， 这 一 -新 发 现 表明 血压 可 以 改变 


PSI 


6.24 经济 学 


经 济 政策 的 评估 需要 定量 分 析 ， 定 量 分 析 方法 可 以 科学 、 客 观 地 评估 政策 
AUR. Shan 和 Liu [101] [102] 提出 了 一 种 可 以 定量 分 析 政 策 组 合 效果 的 决策 树 构 
建 方法 ，CE 被 用 来 度量 非 线性 相关 关系 并 构建 决策 树 , 方法 的 思想 是 利用 基于 
CE 定义 的 信息 增益 来 构建 用 以 区 别 不 同 政策 对 象 群体 的 政策 决策 树 ,由 树 的 叶 
子 节点 来 表示 不 同 政策 组 合 对 应 的 群体 划分 。 他 们 将 该 方法 应 用 于 发 展 经 济 学 
领域 ， 评 估 我 国 的 减 贫 政策 效果 ， 研 究 分 析 了 2018 年 由 政府 开展 的 贫困 家 庭 状 
况 普查 的 问卷 调查 数据 中 四 川 省 的 数据 . 分 析 发 现 , 就业 政策 、 新 收入 来 源 和 是 
否 有 抵押 贷款 是 影响 家 庭 收 入 的 主要 政策 因素 ， 并 揭示 了 这 些 政策 组 合 对 应 的 
不 同 目标 贫困 群体 收入 结构 的 不 同 特征 。 该 方法 在 无 历史 数据 的 情况 下 ， 评 估 
验证 了 减 贫 政 策 的 有 效 性 ， 并 发 现 了 更 加 有 效 的 政策 组 合 方案 。Zhang 等 [103] 
将 同样 的 方法 应 用 于 上 述 调查 数据 中 河南 省 的 数据 ， 得 出 了 基本 相同 的 结论 。 

经 济 学 的 核心 目的 是 发 现 因果 关系 。 传 统 的 经 济 学 依靠 推理 建 模 以 及 基于 
此 的 实验 设计 。 因 果 发 现 是 从 数据 中 发 现 因果 关系 的 方法 ， 将 其 与 经 济 学 理论 
模型 相 结 合 是 设计 经 济 学 实验 的 新 路 径 。Bossemeyer [104] 基于 CE 和 MI 的 关 
系 提出 了 一 种 条 件 独立 性 测试 算法 ， 并 将 其 应 用 于 因果 结构 发 现 的 PC 算法 中 。 
作者 利用 新 PC 算法 研究 了 经 济 学 中 的 议价 理论 ， 研 究 讨价还价 行为 中 互惠 关 
系 的 作用 ,以 及 响应 时 间 在 这 个 过 程 中 的 作用 。 作 者 将 算法 应 用 于 eBay 的 Best 
Offer 平台 数据 ,发现 交易 双方 让 价 行为 之 间 存在 关联 ， 印 证 了 互惠 理论 ; 同时 ， 
发 现 了 对 手 还 价 响应 时 间 对 下 一 次 要 价 存在 因果 效应 。 
产业 链 是 指 产业 部 门 之 间 基于 经 济 关系 形成 的 链条 式 关 联 关系 形态 。 产 业 
链 基 于 资源 要 素 分 配 和 专业 化 分 工 等 多 种 因素 构成 上 下 游 关 系 ， 来 进行 价值 互 
换 ， 上 游 企业 向 下 游 企业 提供 产品 和 服务 ， 同 时 接受 下 游 企业 的 反馈 信息 ， 从 而 
构成 关联 互动 关系 。 产 业 链 各 环节 之 间 的 相关 性 分 析 ， 对 产业 布局 管理 和 投资 
组 合 设计 具有 重要 参考 意义 。 韦 颖 囊 [105] 基于 CE 概念 ， 提 出 了 pair-copula 
焙 的 概念 ， 用 于 度量 多 变量 内 部 的 成 对 相关 关系 。 她 将 该 概念 应 用 于 国内 畜 禽 
养殖 产业 链 各 环节 之 间 的 相关 性 研究 ， 基 于 该 领域 内 9 家 上 中 下 游 主要 上 市 企 
业 的 股票 价格 数据 , 运用 pair-copula 炳 度量 了 产业 链 内 上 中 下 游 之 间 的 相关 性 ， 
发 现 该 产业 链 上 游 相 关 性 较 强 ， 下 游 相关 性 较 弱 ; 无 条 件 相关 性 强 , 条 件 相关 性 
弱 ; 上 中 之 间 相关 性 强 等 现象 。 

投资 者 情绪 对 财经 市 场 有 着 广泛 而 多 面 的 影响 ， 投 资 者 情绪 分 析 是 经 济 学 


6 实际 应 用 


研究 的 重要 问题 之 一 。 由 于 社交 媒体 和 
国家 间 传 播 ， 进而 形成 传播 网 络 , 使 得 局 部 情绪 波动 得 以 迅速 扩散 , 造成 系统 性 
于 小 波 分 析 、 传 递 箭 和 网 络 分 析 组 合 的 


影响 。Han 和 Zhou [100] 提出 了 一 个 


方法 ， 研 究 公司 间 投 资 者 情绪 传播 的 模式 ， 其 中 采 朋 
E] 137 家 新 能 源 汽车 上 


方法 。 他 们 采 月 


H 2015-2021 年 间 的 中 


索引 数据 来 代表 投资 者 情绪 ， 将 其 月 


构建 情 


现 ， 投 资 者 情绪 表现 为 短期 局 部 活跃 ， 并 
胀 预 期 直接 影响 


= 


通 


H í 


小 波 分 析 分 解 为 多 尺度 信息 ， 再 月 
绪 传 播 网 络 ， 最 后 用 网 络 分 析 的 方法 分 析 短 期 和 长 期 传播 特征 。 他 们 发 
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和 场 关系 整合 ， 投 资 者 情绪 会 在 人 群 和 


T CE Wf 
公司 的 百度 搜索 


H Fei 


具有 连续 且 逐 渐 增 长 的 进化 模式 。 


和 场 主体 的 经 济 行为 , 是 通胀 的 成 因 之 一 。 研究 通胀 与 预 


期 的 关系 是 一 个 重要 的 课题 ， 特 别 对 中 央 银 行 决 策 者 具有 重要 价值 。Ardakani 


[oj 提出 利用 CE 分 析 预 期 对 通胀 的 信息 量 ， 证 明了 负 费 
Information) 是 CE 的 下 界 ， 可 以 作为 通胀 和 预期 关系 的 最 小 度 
E| 1982 至 2022 年 逐 月 通胀 指数 (CPI 和 PPI) 和 通胀 预 
期 指数 ( 密 敬 根 大 学 调查 指数 、 克 利夫 兰 联 邦 
) 数据 ， 发 现 30 年 预期 与 通 


CE 等 工具 分 析 了 美 


TR 


通胀 的 信息 。 


6.25 ”管理 学 
准确 预测 农产品 期 货 价格 有 助 于 为 政府 相关 部 门 的 科学 决策 提供 参考 ， 


而 对 保障 


模型 至 关 重要 。 


国家 粮食 安全 
国际 形势 、 市 场 情绪 博弈 等 。 因此 ,识别 


嵌 备 银行 2 年 、 
胀 之 间 CE 最 小 ， 说 明 其 提 


E EL 


= 
1H. o 


ZK 


^N 


An 等 [108] 提出 了 


个 


此 研究 为 中 央 银 行 管控 预期 以 达到 通胀 目标 提供 了 一 个 有 力 工 具 ， 
能 够 帮助 理解 不 同 预期 对 通胀 的 预测 能 力 ， 从 而 更 有 力 地 调控 通胀 。 


(Fisher 
他 利用 


10 年 和 30 年 预期 
了 更 多 可 以 预测 


具有 重要 意义 。 然 而 价格 预测 受 多 种 复杂 因素 的 影响 , 如 
介 格 的 影响 因素 对 构建 准确 的 价格 预测 
于 历史 数据 和 文本 数据 的 融合 多 种 方 


法 的 混合 预测 框架 , 其 中 经 验 模 态 分 解 (Empirical Mode Decomposition: EMD) 


析 用 于 提取 微 博文 本 信息 ， 


用 于 预 处 理 历史 数据 , 动态 主题 模型 (Dynamic Topic Model: DTM) 和 情感 分 


再 利用 CE 等 方法 对 提取 的 因子 进行 筛选 ， 用 于 构 
建 预测 模型 。 作 者 在 两 个 实际 数据 上 验证 了 该 方法 框架 : 
格 数据 和 大 连 商品 交易 所 的 大 豆 期 货 价 格 数据 ， 


国家 统计 局 的 猪肉 价 
收集 了 相应 时 间 内 的 微 博文 


本 数据 。 在 实验 中 ， 作 者 将 CE 方法 与 同类 的 dCor 和 HSIC 方法 进行 了 对 比 ， 


结果 表明 ， 在 两 个 数据 上 ， 基 于 CE Bp 
库存 管理 是 企业 运 


方法 来 选择 模型 的 输入 特征 。 他 们 将 方法 应 月 
至 2022 年 间 的 大 众 朗 逸 汽 车 的 历史 销售 量 、 某 网 站 的 讨 


| 模型 都 给 出 了 最 好 的 预测 性 能 。 
营 管理 过 程 中 的 关键 环节 ， 也 是 管理 学 的 重要 问题 之 一 。 
报 童 问题 是 典型 的 单 周期 库存 管理 模型 ， 一 直 是 本 领域 研究 的 
用 数据 驱动 模型 和 方法 的 报 童 问题 研究 展现 出 比 传统 方法 的 优越 性 ， 进 而 成 为 
了 热门 话题 。Tian 和 Zhang [109] 提出 了 一 种 端 到 端的 算法 框架 ， 利 月 
模型 从 在 线 商 品评 论 等 特征 数据 中 预测 订单 数量 ， 其 中 采 朋 


焦点 。 近 年 来 ， 利 


深度 学 习 
了 包括 CE 在 内 的 


于 汽车 库存 管理 问题 ， 


He. ERRI 


T 2016 
擎 指数 、 


和 宏观 经 济 指数 等 数据 构建 了 模型 。 结 果 显 示 ， 本 方法 能 够 大 幅 减少 超额 成 本 
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和 短缺 成 本 之 和 ， 与 同类 方法 相 比 减少 了 31.8% 的 成 本 。 

中 国企 业 海 外 并 购 面 临 着 时 代 的 机 过 和 挑战 。 探 究 影响 中 国企 业 海 外 并 购 
的 国内 外 各 种 因素 ， 分 析 并 购 的 短期 和 中 长 期 绩效 ， 具 有 重大 的 理论 和 现实 意 
义 。 王 琳 君 提出 利用 Copula VECM 模型 ， 分 析 与 海外 并 购 数量 强 关 联 的 
经 济 变量 对 并 购 的 影响 ， 特 别 考虑 了 被 其 他 研究 者 忽视 的 宏观 经 济 变量 的 动态 
影响 。 由 于 此 类 经 济 变量 较 多 ， 容 易 使 构建 的 VAR 模型 复杂 度 增加 ， 导 致 估计 
模型 的 不 准确 性 。 因 此 , 他 提出 利用 CE 对 经 济 变量 进行 选择 后 再 建立 模型 。 他 
在 Wind 数据 库 中 选取 了 海外 并 购 数量 和 其 他 7 个 与 并 购 数量 可 能 关联 的 宏观 
经 济 变量 的 季度 数据 ， 通 过 CE 关联 度 分 析 后 ， 得 出 结论 认为 宏观 经 济 杠杆 率 、 
GDP、 货 币 供给 增长 率 和 汇率 四 个 宏观 经 济 因 素 是 影响 我 国 海外 企业 并 购 活动 
不 可 忽视 的 重要 因素 。 他 进一步 分 析 论 述 了 所 选 变量 对 并 购 数量 影响 的 内 在 经 
济 逻 辑 ， 增 强 了 模型 的 合理 性 。 


6.26 ”社会 学 


性 别 不 平等 是 社会 学 研究 的 问题 之 一 。 由 性 别 视角 , 我 们 可 以 发 现 很 多 不 平 
等 现象 ,如 两 性 在 收入 上 、 教 育 上 、 职 业 上 的 不 平等 等 。 分 析 和 鉴别 导致 不 平等 
现象 的 社会 学 因素 是 学 者 们 关心 的 问题 ， 利 用 定量 方法 分 析 相 关 社 会 学 数据 是 
研究 的 手段 之 一 。 然 而 各 种 社会 因素 之 间 的 因果 链条 十 分 复杂 ， 需 要 采用 科学 
的 数据 分 析 工 具 加 以 应 对 。 马 健 HAJ 提出 了 一 种 多 域 因 果 关 系 鉴 别 方法 ， 将 性 
别 因素 作为 社会 外 在 变量 ， 将 不 平等 问题 转化 为 数据 分 析 中 的 域 迁移 问题 ， 利 
用 基于 CE 的 条 件 独立 性 测试 发 现 社会 变量 之 间 的 因果 关系 。 他 将 方法 应 用 于 
美国 国家 成 人 收入 社会 调查 数据 ， 分 析 了 性 别 、 教 育 和 收入 之 间 的 因果 关系 链 
条 ， 发 现 了 性 别 导致 教育 不 平等 ， 进 而 造成 收入 不 平等 的 科学 证 据 。 


6.27 教育 学 


高 中 教育 各 学 科 之 间 具 有 内 在 的 联系 ， 教 学 大 纲 中 强调 了 数学 对 物理 、 化 
学 和 生物 等 学 科 的 基础 性 地 位 ， 数 学 知识 、 数 学 思维 和 思想 方法 深刻 地 渗透 影 
向 着 其 他 学 科 的 教学 。 因 此 ， 数 学 成 绩 被 认为 与 其 他 学 科 成 绩 具有 相关 性 。 利 用 
实证 的 方法 研究 数学 与 其 他 学 科 的 关系 ， 分 析 数学 成 绩 与 其 他 成 绩 之 间 的 相关 
性 是 一 个 重要 的 基本 问题 ， 对 于 教学 改革 和 学 习 方式 的 选择 具有 普遍 参考 意义 。 
柳 琼 [Lui] 基于 某 市 2013 级 理科 学 生 高 一 、 高 二 期 未 考试 成 绩 和 高 三 两 次 模拟 
考试 成 绩 ， 研 究 了 数学 成 绩 与 其 他 学 科 成 绩 之 间 的 相关 性 。 作 者 比较 了 经 典 线 
性 相关 系数 、 秩 相关 系数 和 MI 三 种 相关 性 度量 方法 ,从 CE 和 MI 理论 关系 的 
角度 分 析 论证 了 MI 度量 的 优越 性 ， 并 实验 证 明了 MI 度量 能 够 更 好 地 刻画 揭 
示 数 学 对 其 他 不 同学 科 语文、 英语、 物理 、 化 学 和 生物 等 ) 的 影响 力 机 制 。 


6 实际 应 用 61 


6.28 ”计算 语言 学 


城市 服务 热线 是 政府 公共 管理 系统 的 重要 组 成 部 分 ， 促 进 了 政府 和 市 民 的 
沟通 ， 改 善 了 政府 的 公共 服务 。 但 传统 的 人 工 派 单方 式 无 法 满足 日 益 增 长 的 热 
线 诉求 ， 如 何 高 效 快速 的 处 理 大 量 的 市 民 热线 诉求 是 城市 服务 热线 提高 服务 质 
量 面临 的 重要 课题 。 大 量 的 热线 文本 数据 积累 为 快速 第 选 和 处 理 热线 诉求 提供 
了 可 能 ， 可 以 利用 自然 语言 处 理 方法 处 理 热线 文本 数据 ， 进 而 构建 智能 派 单 系 
统 。 陈 作 海 等 LA 提出 了 一 种 基于 知识 图 谱 技术 的 城市 热线 派 单方 法 ， 基 于 城 
市 热线 数据 构建 热线 知识 图 谱 ， 再 对 待 派 单 诉求 根据 构建 的 知识 图 谱 检索 结果 
进行 派 单 ， 大 大 改善 了 热线 服务 的 工作 效率 。 在 此 智能 派 单 系统 中 ，CE 作为 特 
征 选 择 方法 被 用 来 对 城市 热线 数据 进行 预 处 理 ， 以 构建 和 更 新 知识 图 谱 。 结 果 
表明 ，CE 表现 优 于 其 他 同类 方法 。 作 者 将 该 方法 应 用 在 济南 市 民 服务 热线 的 系 
统 上 ， 通 过 不 断 更 新 知识 图 谱 ， 最 终 获 得 了 90% 以 上 的 派 单 准确 率 。 


6.29 ”新闻 传播 学 


公共 卫生 事件 发 生 过 程 如 何 影响 公众 情绪 是 一 个 重要 的 问题 ， 具 有 理论 和 
实意 义 ， 对 政府 的 信息 发 布 和 舆情 管控 具有 参考 价值 。 特 别 是 新 媒体 环境 中 ， 
公众 情绪 的 传播 和 演化 过 程 受 多 种 因素 影响 ， 因 而 更 趋 复杂 。 新 冠 疫情 的 发 生 
给 研究 这 类 问题 提供 了 条 件 。Zhang 等 [113] 研究 了 上 海 新 冠 疫情 发 生 期 间 , BE 
情 过 程 对 公众 情绪 的 影响 特点 和 机 理 。 他 们 以 微 博 平台 上 “上 海 疫情 ”主题 的 数 
据 为 基础 ， 研 究 了 公众 情绪 的 影响 因素 、 时 间 演 化 以 及 疫情 与 公众 情绪 之 间 的 
因果 关系 。 研 究 利 用 了 基于 CE 的 传递 箭 方 法 分 析 了 疫情 和 公众 情绪 之 间 的 因 
果 关系 ， 实 证 地 发 现 了 疫情 过 程 对 公众 负面 情绪 的 因果 效应 大 于 正面 情绪 ， 且 
正面 情绪 对 负面 情绪 具有 抑制 效应 。 


9i 


6.30 iX 

社区 是 基本 的 社会 生活 单元 ， 社 区 治安 管理 与 每 个 人 的 生活 息息相关 。 社 
区 属性 与 社区 犯罪 之 间 具 有 内 在 联系 ， 分 析 社区 经 济 、 社 会 和 人 口 等 属性 与 各 
类 犯罪 之 间 的 关系 ， 可 以 加 深 对 犯罪 行为 发 生 的 理解 ， 对 执法 部 门 合理 安排 部 
署 资源 力量 具有 重要 参考 意义 。Wieser [114] 基于 CE 与 MI 的 等 价 关系 ， 提 出 
了 一 种 新 的 信息 瓶颈 (Information Bottleneck) 估计 方法 。 由 于 利用 了 CE 的 
变换 不 变性 ， 该 方法 较 传统 同类 方法 具有 更 好 的 估计 性 能 。 他 将 该 方法 应 用 于 
美国 社区 与 犯罪 数据 集 ， 分 析 125 种 经 济 社会 因素 与 18 种 犯罪 属性 (包括 8 种 
犯罪 行为 ， 人 均 犯 罪 率 和 人 均 (AE) 暴力 犯罪 率 ) 之 间 的 关系 ， 学习 得 到 了 可 以 
表示 这 种 关系 的 潜 变 量 模型 ， 为 构建 犯罪 预测 模型 提供 了 参考 。 
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6.31 政治 学 


政治 安全 事 关 国家 安危 。 政 治学 研究 关心 政权 领导 力 因素 与 政权 危机 之 间 
的 关系 ,并 根据 这 些 信息 配置 资源 ,开展 情报 收集 、 稳 定 或 颠覆 政权 等 行动 。 基 
于 雪 城 大 学 莫 伊 尼 汉 全 球 事务 研究 所 的 国际 政治 领导 力 数据 集 ，Card (115) 研 
究 了 37 个 领导 力 因素 与 政治 安全 之 间 的 非 线性 关系 ， 采 用 CE (MI) 作为 非 线 
性 分 析 工 具 ， 重 点 关注 了 两 个 领导 力 变量 (政权 建立 原因 和 政权 结束 原因 ) 与 其 
他 因素 的 关系 。 分 析 结 果 佐 证 了 社会 学 家 的 已 有 理论 ， 分 析 也 印证 了 已 知 的 关 
系 ， 发 现 了 未 知 的 关系 和 现象 。 


6.32 ”军事 学 


目标 意图 及 时 准确 识别 是 战场 态势 感知 的 一 项 重要 内 容 ， 是 指挥 决策 的 基 
础 和 前 提 。 空 中 飞行 目标 意图 识别 会 面临 多 种 不 确定 性 的 挑战 ， 如 行为 特性 与 
物理 特性 的 不 确定 性 、 飞 行规 则 的 不 确定 性 和 行动 能 力 的 不 确定 性 等 ， 使 得 及 
时 准确 的 意图 识别 十 分 困难 。 张 可 等 LLG] 提出 了 一 种 基于 动态 贝 叶 斯 网 络 的 目 
标 意图 识别 方法 ， 用 于 从 复杂 态势 中 目标 的 时 序数 据 中 完成 意图 识别 ， 方 法 利 
用 基于 CE 的 MI 估计 算法 从 目标 属性 和 目标 意图 数据 来 生成 贝 叶 斯 网 络 结构 ， 
再 利用 自 适应 遗传 算法 迭代 优化 网 络 结构 ， 利 用 最 终 优化 得 到 的 网 络 来 进行 未 
知 目标 的 意图 识别 。 他 们 将 该 方法 应 用 于 空中 目标 的 处 理 过 程 ， 利 用 空中 目标 
的 位 置信 息 、 飞 行 信息 ， 以 及 雷达 和 通讯 系统 信息 来 识别 其 6 种 不 同意 图 GW 
逻 、 预 警 /指挥 、 电 子 侦察 、 电 子 干扰 、 攻 击 和 打击 等 )。 该 方法 可 不 限于 空中 飞 
行 目标 ， 可 以 很 方便 地 推广 到 其 他 类 型 目标 上 。 


6.33 ”情报 学 


颠覆 性 技术 是 具有 原始 创新 性 的 技术 ， 会 对 现 有 主流 技术 和 产业 产生 变革 
性 作用 ， 推 动 经 济 社会 发 生 突变 式 进步 。 开 展 颠 履 式 技术 的 前 瞻 识 别 及 预 判 研 
究 是 科技 情报 分 析 领 域 的 重要 问题 ， 对 科技 政策 制订 、 科 技 产业 布局 和 科技 创 
新 生态 培育 具有 指导 意义 。 基 于 知识 网 络 分 析 的 科学 、 技 术 和 产业 互动 模式 研 
究 是 解决 识别 研判 问题 的 路 径 之 一 。 许 海 云 等 提出 了 一 个 颠覆 性 技术 研究 
流程 框架 ， 以 渐进 式 技术 为 参照 获取 科技 、 专 利和 产业 文献 资料 的 文本 数据 ， 利 
用 自然 语言 处 理 技术 分 别 构建 三 者 的 知识 网 络 ， 再 利用 知识 网 络 的 三 种 整体 网 
络 属性 和 网 络 社区 相似 度 属 性 将 知识 网 络 互动 模式 划分 为 预 设 的 五 种 模式 ， 包 
括 科 学 -技术 -产业 联动 模式 。 其 中 ，CE 被 用 来 度量 三 种 知识 网 络 的 整体 网 络 属 
性 之 间 的 关联 度 ， 以 表征 互动 模式 。 他 们 以 再 生 医学 (干细胞) 领域 作为 颠覆 
性 技术 对 象 ， 以 白血病 治疗 领域 为 渐进 性 技术 参照 开展 实证 研究 ， 获 取 了 截至 
2020 年 底 的 权威 数据 库 相 关 文 本 数据 ， 利 用 该 流程 框架 研究 了 两 个 对 比 领域 科 
学 -技术 -产业 互动 模式 的 共性 和 差异 ,加深 了 对 苏 覆 性 技术 创新 生态 要 素 的 知识 
流动 和 扩散 规律 的 认识 。 
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6.34 能源 工程 


天 气 是 能 源 系 统 的 重要 影响 因素 ， 直 接 影响 能 源 的 生产 和 消费 两 端 。 特 别 
是 当 可 再 生 能 源 整 合 到 能 源 系 统 中 后 ， 风 速 和 光照 等 天 气 因素 决定 了 风能 和 光 
伏 能 源 的 生产 能 力 ， 而 温度 变化 则 会 影响 居民 的 能 源 消耗 需求 。 但 自然 系统 具 
有 较 大 的 随机 性 ， 给 新 能 源 系 统 的 稳定 高 效 运 行 带 来 了 挑战 。 因 此 ， 新 型 能 源 
网 络 管理 系统 需要 建立 合理 的 模型 ， 以 便 将 新 能 源 集成 到 网 络 中 。 信 息 论 为 管 
理 天 气 系统 的 随机 性 提供 了 工具 。Fu 等 [18] 研究 了 基于 信息 论 在 集成 能 源 系 
统 中 建立 天 气 模型 的 方法 。 作 者 采用 了 Copula 函数 建立 天 气 变量 的 联合 分 布 模 
型 ， 并 采用 CE 计算 的 MI 作为 模型 准确 性 的 评价 指标 ， 以 指导 建 模 过 程 。 同 
时 ，MI 还 被 用 来 衡量 各 种 能 源 产 出 之 间 的 关联 强度 。 作 者 将 得 到 的 集成 能 源 系 
统 模型 用 于 模拟 中 国 北方 某 地 区 的 能 源 系统 运行 情况 ， 并 与 实际 数据 进行 了 对 
比 。 结 果 显 示 , 系统 模型 的 模拟 与 实际 情况 基本 符合 , 说 明 构建 的 天 气 模型 能 够 
满足 能 源 管理 系统 运行 需求 。 

光伏 发 电 技术 受 天 气 等 环境 因素 影响 , 具有 较 大 的 不 确定 性 , 给 电网 的 安全 
稳定 运行 构成 影响 。 根 据 气象 条 件 等 因素 对 光伏 发 电站 有 功 功率 进行 预报 ， 有 
助 于 电网 调度 人 员 更 好 地 制定 调度 策略 ， 应 对 光伏 发 电 的 不 确定 性 给 电网 的 冲 
击 威胁 。 朱 正 林 和 张 晃 [119] 提出 了 一 种 结合 优化 算法 、 模 态 分 解 、CE 和 深度 
学 习 模型 的 方法 ， 用 于 提高 发 电功率 的 预测 精度 。 他 们 在 澳大利亚 Yulara 地 区 
光伏 电站 数据 上 将 方法 与 多 种 同类 方法 进行 了 对 比 ， 表 明 该 方法 得 到 的 模型 能 
够 更 好 地 适应 天 气 变 化 的 影响 ， 取 得 最 好 的 预测 效果 。 

风能 作为 一 种 主要 的 清洁 能 源 ， 具 有 间歇 性 和 不 确定 性 的 特点 ， 导 致 风电 
机 组 的 功率 预测 和 控制 十 分 复杂 。 基 于 风电 机 组 的 监测 数据 ， 分 析 机 组 内 各 变 
量 之 间 的 相关 性 特征 ， 有 助 于 机 组 的 健康 状态 监测 和 风电 功率 预测 ， 从 而 更 好 
地 利用 风能 资源 。 崔 双双 和 和 孙 单 [120] 提出 利用 CE 来 分 析 风 电机 组 状态 变量 
之 间 的 相关 性 ， 再 基于 CE 相关 性 进行 聚 类 以 得 到 机 组 工 况 的 划分 。 他 们 将 方 
法 应 用 于 广东 某 海上 风电 场 数据 采集 与 监控 (SCADA) 系统 的 数据 ， 发 现 CE 
方法 较 传统 方法 能 更 好 地 描述 数据 中 的 相关 性 ， 并 利用 K-means 方法 得 到 了 能 
精确 地 反映 风电 机 组 运行 特性 和 状态 的 工 况 划分 ， 具 有 重要 的 现实 意义 。 

电力 负荷 预测 是 根据 历史 数据 来 预报 未 来 一 段 时 间 的 用 电量 ， 对 智能 电网 
调度 和 规划 电力 输送 具有 重要 意义 。 电 力 负荷 受 多 种 因素 影响 ， 具 有 周期 性 和 
季节 性 等 特点 , 特别 是 受 天 气 因素 的 影响 明显 。 因 此 ,构建 准确 的 电力 负荷 预测 
模型 需要 考虑 天 气 等 多 种 因素 ， 并 对 天 气 对 负荷 的 影响 特点 进行 分 析 。Ma 
提出 利用 基于 CE 的 TE 方法 来 分 析 动 态 系统 的 时 延 特性 ， 并 将 方法 应 用 于 麻 
洛 哥 缔 头 万 (Tétouan) 城 的 电力 消费 数据 ， 从 时 延 的 角度 分 析 了 五 种 天 气 因素 
对 该 城 三 个 电力 供应 网 络 的 负荷 的 影响 ， 发 现 了 影响 的 每 日 时 延 变 化 特征 。Yan 
等 [121] 提出 了 一 种 结合 聚 类 算法 、 预 测算 法 和 集成 学 习 方 法 的 综合 能 源 负荷 短 
期 预测 方法 ， 首 先 根据 负荷 数据 特性 对 数据 进行 聚 类 ， 再 对 每 类 数据 利用 基于 
CE 的 TE 算法 分 析 选 择 对 负荷 有 影响 的 外 部 因素 (包括 天 气 和 时 间 两 类 ) ， 最 
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后 利用 集成 学 习 算 法 对 负荷 进行 预测 。 他们 将 方法 应 用 于 2018 年 美国 亚利桑那 
居民 建筑 综合 能 源 负荷 数据 ， 以 预测 电力 、 燃 气 、 制 冷 和 供 热 四 种 负荷 。 实 验 
结果 表明 ， 利 用 基于 CE 的 TE 算法 选择 的 外 部 因素 可 以 在 预测 模型 上 得 到 最 
好 的 预测 性 能 ， 效 果 明 显 好 于 其 他 相关 性 变量 选择 对 比方 法 ， 原 因 是 TE 可 以 
准确 度量 外 部 因素 和 负 共 之 间 的 时 序 非 线性 关系 ,。 阅 超 (122) 提出 了 一 种 基于 深 
度 学 习 的 综合 能 源 多 元 负荷 短期 预测 方法 ， 首 先 利用 VMD 对 多 元 负荷 进行 分 
解 ， 再 利用 CE 计算 分 解 得 到 的 IMF 分 量 与 负荷 影响 因素 之 间 的 连接 强度 ， 作 
为 图 卷 积 网 络 的 邻接 矩阵 权重 ， 再 将 如 此 得 到 的 时 序 碍 合 特征 输入 到 LSTM 模 
型 ， 将 由 此 得 到 的 模型 输出 与 另 一 个 Transformer 模型 的 输出 进行 点 乘 运算 作 
为 最 终 预测 结果 。 他 在 美国 亚利桑那 州立 大 学 坦 佩 小 区 的 数据 上 验证 了 方法 的 
有 效 性 ， 发 现 CE 能 够 很 好 地 计算 出 气象 和 时 间 等 因素 与 冷 、 热 、 电 负荷 名 分 
量 之 间 的 耦合 强度 关系 ， 增 加 了 模型 的 可 解释 性 。 
可 再 生 的 风光 能 源 越 来 越 成 为 电力 能 源 的 重要 组 成 部 分 ， 如 何 保证 风光 电 
力 接 入 的 经 济 效益 和 安全 可 靠 是 可 再 生 能 源 利用 的 主要 关切 。 合 理 的 规划 对 于 
解决 此 关切 十 分 关键 ， 可 保证 建设 投资 回报 和 系统 合理 运行 ， 防 止 风光 能 源 被 
弃 用 的 发 生 。 储 能 系统 可 以 平抑 风光 能 源 的 不 稳定 波动 性 ， 是 风光 系统 规划 的 
组 成 部 分 。 董 海燕 等 [23] 提出 了 一 种 考虑 源 荷 时 序 相似 性 的 风光 储 协同 规划 配 
置 方法 ， 其 中 利用 CE 衡量 风光 能 源 与 负荷 之 间 的 相似 性 ， 以 提高 系统 风光 能 
源 的 利用 效率 。 他 们 将 方法 应 用 于 某 工业 园区 的 风光 火 储 联 合 发 电 系统 的 规划 
配置 ,结果 表明 , 该 方法 能 有 效 降低 储 能 系统 的 装机 容量 , 提高 新 能 源 的 消 纳 能 
力 ， 经 济 效益 和 减 排 效益 明显 。 

频率 是 电力 系统 最 重要 的 物理 量 指标 之 一 ， 频 率 稳定 性 是 保障 电力 供应 稳 
定性 的 一 个 基本 要 求 。 可 再 生 能 源 由 于 具有 不 可 预测 性 ， 其 大 量 接 入 电网 给 电 
网 频率 稳定 性 带 来 了 挑战 。 为 了 稳定 和 控制 新 能 源 带 来 的 频率 波动 ， 需 要 准确 
快速 地 预测 系统 的 频率 稳定 性 ， 以 帮助 系统 操作 员 提 前 制定 控制 策略 。 传 统 的 
频率 稳定 性 预测 是 模型 驱动 的 ， 由 于 求解 耗 时 从 而 无 法 做 到 在 线 预测 。 基 于 机 
器 学 习 的 模型 方法 ， 通 过 简化 模型 以 提高 计算 效率 ， 可 以 满足 在 线 预测 的 需求 。 
Liu 等 [24 125] 提出 了 一 种 结合 深度 学 习 和 CE 的 频率 稳定 性 预测 方法 ，CE 
被 用 来 选择 模型 输入 变量 ， 减 少 匈 余 信息 以 提高 计算 效率 。 作 者 将 方法 应 用 于 
两 个 系统 : 一 个 是 新 英格兰 39 节点 系统 ,集成 了 美国 西部 电力 调度 委员 会 的 动 
态 风 场 模型 ; 另 一 个 是 基于 南 加 州 西部 的 电网 系统 建立 的 ACTIVSg500 系统 。 
实验 表明 该 方法 建立 的 模型 相 较 同类 模型 取得 了 最 好 成 绩 ， 达 到 了 实用 的 要 求 。 
CE 方法 不 仅 简化 了 模型 、 大 幅 隆 低 了 计算 时 间 ， 且 分 析 发 现 了 与 频率 稳定 性 相 
关 的 电网 变量 ， 使 得 模型 具有 了 可 解释 性 。 

电力 系统 宽频 振荡 由 电力 电子 设备 的 动态 交互 作用 引发 ， 在 电网 中 的 传播 
会 造成 连锁 反应 ,严重 危害 电网 安全 运行 。 宽 频 振 荡 激发 机 理 复杂 , 具有 显著 的 
时 变 、 非 线性 和 广 域 传播 等 特征 ， 难 以 有 效 地 进行 建 模 分 析 。 汉 双 等 26, [127] 
利用 CE 的 模型 无 关 特 性 ， 提 出 了 一 种 宽频 振荡 影响 因素 和 传播 路 径 分 析 方法 。 
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该 方法 以 系统 运行 的 状态 参数 为 随机 变量 ， 通 过 计算 其 与 各 个 频率 区 间 的 振荡 
阻尼 之 间 的 CE 来 选取 影响 振荡 的 关键 因素 ; 同时 ， 利 用 系统 发 生 振荡 时 的 数 
据 ， 计 算 系统 变量 之 间 的 copula 传递 炉 网 络 ， 用 于 分 析 振 荡 的 传播 过 程 和 振 源 
定位 。 该 分 析 方法 是 数据 驱动 的 方法 , 可 以 在 系统 模型 未 知 的 情况 下 得 到 相应 的 
分 析 结 果 。 作 者 仿真 了 直 驱 风机 并 网 系统 和 含 风电 场 的 四 机 两 区 系统 ， 对 控制 
器 内 部 各 环节 和 复杂 系统 各 母线 之 间 的 振荡 因果 关系 进行 分 析 。 仿 真 结果 表明 ， 
该 方法 能 够 从 设备 级 和 网 络 级 两 个 层面 准确 确定 宽频 振荡 的 传播 路 径 和 振 源 位 
置 ， 为 研究 振荡 传播 机 理 提供 了 支撑 ， 为 进一步 采取 振荡 抑制 措施 提供 了 参考 。 
孙 文 涛 等 [i28 29] 也 提出 了 一 个 利用 CE 识别 交 直流 混 联系 统 宽频 振荡 风险 识 
别 方法 ， 通 过 分 析 计算 振荡 影响 因素 变量 与 各 个 子 频率 区 间 内 振荡 模 态 的 阻尼 
变量 之 间 的 CE 来 进行 风险 识别 。 他 们 利用 该 方法 分 析 了 某 省 份 电网 系统 在 小 


扰动 下 的 振荡 风险 , 采用 LCC 模型 发 现 了 整流 器 控制 参数 和 直流 传输 功率 等 关 
键 影响 因素 ， 为 后 续 设 计 抑制 振荡 的 针对 性 调整 方案 提供 了 准确 且 可 靠 的 依据 。 

线 损 率 是 电力 能 源 企业 的 一 项 重要 经 济 技术 指标 ， 衡 量 其 经 济 效益 水 平 的 
高 低 。 因此, 线 损 管 理 和 异常 线 损 稽 查 是 电力 部 门 的 一 项 重要 工作 。 线 损 分 析 是 


fi 


= 


用 科学 的 计算 手段 分 析 线 损 在 电网 中 的 分 布 规律 ， 能 为 管理 提供 高 效 、 准 确 


的 决策 支持 。Hu 等 [130] 提出 了 一 种 基于 TE 的 线 损 分 析 方法 ， 通 过 CE 估计 
计算 每 个 用 户 对 区 域 总 线 损 的 TE 值 来 判断 其 对 总 线 损 的 贡献 。 他 们 基于 每 日 
电力 供应 和 线 损 数据 的 计算 分 析 ， 将 用 户 根据 线 损 贡 献 度 排序 ， 以 应 用 于 实际 
线 损 管理 工作 中 ， 从 而 减少 总 线 损 率 。 

配 电网 拓扑 辨识 是 电网 系统 分 析 的 重要 问题 ， 为 潮流 计算 、 电 网 状态 估计 、 
无 功 优化 调节 和 网 络 重 构 等 配 电网 管理 功能 提供 基础 。 随 着 分 布 式 能 源 大 规模 
接 入 配 电网 ， 其 波动 性 和 不 确定 性 导致 系统 拓扑 重 构 更 加 多 变 ， 给 拓扑 辨识 带 


来 了 新 的 难题 。 秦 超 和 潘 秘 笔 [31] 提出 了 一 种 新 的 配 电网 拓扑 辨识 方法 ， 基 于 


时 空 相关 性 将 辨识 问题 转化 为 多 个 开关 节点 状态 识别 的 子 问 题 。 该 方法 首先 利 


用 CE 和 马尔 科 夫 链 分 别提 取 节 点 电压 序列 之 间 的 空间 和 时 间 非 线性 相关 性 特 


征 ， 在 此 基础 上 得 到 能 够 识别 单个 开关 状态 变化 序列 的 模型 ， 最 后 结合 多 个 此 


类 开关 状态 识别 结果 完成 一 定时 间 内 的 网 络 拓 扑 结 构 辨 识 。 他 们 模拟 了 接 入 风 


机 和 光伏 的 拓扑 结 


构 动 态 变化 的 配 电网 ， 为 其 仿真 生成 了 为 期 120 天 的 配 电网 


KIEG, 在 此 网 络 节 点 量 测 数据 的 基础 上 检验 所 提出 的 方法 , 结果 表明 CE 能 
够 有 效 分 析 节 点 电压 之 间 的 相关 性 ， 导 致 该 方法 能 够 在 短 时 间 内 有 效 辨 识 网 络 


拓扑 结构 。 


电价 预测 问题 在 电力 市 场 参与 者 决策 中 至 关 重 要 ， 可 以 帮助 其 开发 交易 策 
略 并 合理 分 本 资源。 但 新 能 源 的 广泛 使 用 使 电力 供应 具有 不 确定 性 ， 从 而 使 电 
价 预测 变 得 更 加 复杂 ， 造 成 预测 模型 构建 较为 困难 。Xiong 和 Qing [132] 提出 
了 一 种 基于 时 序数 据 的 混合 电价 预测 框架 ， 将 基于 CE 的 特征 选择 方法 与 信号 
分 解 、 贝 叶 斯 优化 和 LSTM 模型 相 结合 , 以 构建 预测 模型 。 他 们 将 方法 应 用 于 


2017 年 美国 宾夕法尼亚 州 -新 泽 西 州 -马里 兰州 互联 网 络 (PJM) 电力 市 场 数据 
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上 ， 证 明了 该 方法 的 有 效 性 和 实用 性 。 
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锂电 池 是 使 用 最 广泛 的 绿色 清洁 能 源 。 但 锂电 池 的 电池 容量 会 随 着 使 用 次 
数 而 退化 ， 因 此 电池 健康 状态 监测 是 电池 管理 系统 中 的 主要 问题 之 一 。 传 统 的 


u 


健康 状态 监测 模型 大 多 在 单一 负载 状况 假设 下 得 到 ， 无 法 适用 于 真实 场景 下 的 


多 种 状况 ， 导 致 在 原始 数据 上 得 到 的 模型 无 法 适应 新 的 情况 。 针 对 此 问题 ，Hnu 


和 Wa [133] 提出 了 


种 基于 迁移 学 习 思 想 的 电池 容量 估计 方法 ， 结 合 了 因果 分 


析 、 注 意 力 机制 和 LSTM 等 工具 ， 其 中 基于 CE 的 TE 被 用 于 选择 与 容量 退 


化 相关 的 健康 状态 指 


标 ， 以 保证 构建 模型 在 不 同 状 况 下 的 可 迁移 性 。 作 者 将 方 


法 应 用 于 NASA 的 3 种 负载 状况 下 的 锂电 池 退 化 数据 ， 结 果 表明 ， 基 于 因果 分 
析 构 建 的 模型 比 基 于 两 种 传统 方法 的 模型 的 跨 工 况 预测 准确 度 分 别提 高 了 8.676 


和 12.4%， 增 强 了 模型 的 鲁 棱 性 。 


能 源 效 率 是 工业 4.0 的 主要 目标 之 一 ， 生 产 系统 的 数字 化 给 提高 工业 设备 


的 能 源 效率 提供 了 巨 
给 出 其 原因 是 改善 能 效 的 有 效 途 径 。 然 而 工业 系统 大 都 具有 复杂 的 结构 和 运 
行 机 理 ， 难 以 通过 传统 建 模 方法 分 析 能 效 异常 的 根本 原因 。 马 健 [134] 提出 利用 


大 的 机 会 。 能 效 异常 是 改善 能 源 效 率 的 突破 口 ， 发 现 异常 


TE 对 能 效 异常 进行 根 因 分 析 ， 针 对 工业 系统 的 非 平 稳 性 ， 给 出 了 一 个 称 为 TE 


流 的 能 效 异 常 原因 诊 


断 方法 ， 其 中 采用 了 基于 CE 的 TE 估计 方法 。 由 于 TE 


是 模型 无 关 的 ， 该 方 


法 也 就 可 以 在 无 设备 机 理 的 条 件 下 对 各 种 设备 进行 能 效 异 


常 根 因 分 析 。 他 将 该 方法 应 用 于 一 个 空气 压缩 机 系统 ， 成 功 地 对 系统 运行 的 因 
果 关 系 进 行 了 描述 ， 从 而 找到 了 导致 系统 能 效 异 常 状态 的 空 压 机 子 系统 。 


6.35 食品 工程 


和 葡萄酒 作 为 一 种 奢侈 农产品 ， 越 来 越 走 进 广大 普通 消费 者 。 和 葡萄 酒 质量 外 


品 鉴 对 其 生产 和 销售 都 至 关 重 要 ， 和 葡萄 酒 酿造 业 大 量 投 入 在 质量 评价 环节 ， 以 
改善 酿造 工艺 并 促进 消费 。 传 统 的 质量 品 鉴 主 要 依靠 理化 测试 和 专家 感受 ， 但 
专家 的 味觉 感受 主观 性 较 强 , 其 内 在 机 理 难 以 理解 。 因 此， 有 必要 研究 酒 的 成 分 


和 专家 评价 之 间 的 内 


6.36 土木 建筑 


在 联系 ， 以 增进 对 葡萄 酒 质量 的 理解 ， 提 高 质量 评价 的 客 


UE. Lasserre 等 [135] 136] 利用 基于 CE 的 (条 件 ) 独立 性 度量 估计 ,提出 了 一 
种 因果 关系 网 络 学 习 算法 ， 称 为 CMIIC， 并 将 其 应 用 于 著名 的 葡萄 牙 绿 酒 的 质 
量 评价 数据 上 ， 分 析 发 现 了 分 别 与 红 葡萄 酒 和 白 葡萄 酒 的 质量 相关 的 理化 成 分 。 


建筑 能 源 消耗 占 全 部 能 源 消耗 的 四 成 左右 ， 建 筑 节 能 技术 是 重要 的 绿色 能 


源 技术 ， 对 实现 联合 


国 的 碳 中 和 目标 意义 重大 。 供 暧 、 通 风 和 空调 (HVAC) 系 


统 贡 献 了 商业 楼 宇 四 成 以 上 的 能 耗 ， 是 建筑 节能 的 主要 研究 对 象 之 一 。HVAC 
系统 的 运行 具有 时 延 的 特性 ， 来 自 于 媒介 传导 的 清 后 和 热 惯性 。 理 解 并 运用 这 


种 特性 ， 有 利于 设计 适当 的 控制 策略 ， 从 而 达到 节能 的 目的 。Li 等 [37] 将 基于 
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CE 的 TE 理念 方法 引入 到 HVAC 领域 ， 开 发 了 一 种 
HT HVAC 系统 的 时 序 预 测 。 
估计 器 ， 结 合 优化 方法 设计 了 时 延 鉴别 算法 。 他 们 将 算法 应 月 


时 延 鉴别 方法 ， 月 


学 楼 的 供 热 监控 系统 ， 分 析 室内 温度 与 天 
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于 信息 论 框 架 的 无 模型 
他 们 改进 了 kNN 的 多 变量 TE 


HT KEE EBL 


气 参数 (如 室外 温度 、 相 对 湿度 、 太 阳 


辐射 、 风 速 等 ) 和 供 热 参数 (如 热 水 供应 和 
进而 利用 后 两 组 参数 预测 
之 间 的 时 延 关 系 特性 ， 进 而 提高 室温 

工程 变形 监测 是 工程 测量 


FER 


下 一 段 时 间 的 室温 。 


回流 温度 等 ) 的 数据 ,鉴别 时 延 特性 


结果 表明 ，TE 方法 能 够 鉴别 参数 


能 。 


时 领域 的 重要 问题 之 一 ， 需 要 保证 监测 精度 和 可 靠 


性 ， 对 大 型 工程 的 施工 运营 安全 具有 重要 间 
只 针对 单个 监测 点 的 建 模 和 预测 ， 但 变 
有 内 在 的 相关 性 ， 因 而 可 以 利用 这 种 相关 必 
等 [138] 提出 了 一 种 基于 自 注 意 力 机 制 的 变 
s ed 


z 


用 这 些 相关 点 组 成 的 数据 集训 练 自 注意 力 机 4 


意义 。 常 见 的 变形 监测 分 析 方 法 一 般 


形体 内 部 监测 点 间 不 是 孤立 的 ， 而 是 具 


Ee ey A M a PAGE. PAGES 
形 监 测 方法 , 采用 CE 度量 监测 点 与 
BAJER 


型 来 进行 长 时 间 的 变形 预 
2021 年 10 H HRE 
的 效果 , 对 实际 工程 


FH 


区 预警 等 长 期 变形 预 


6.37 ”交通 运输 


大 件 货物 运输 是 指 通 过 多 种 运输 方式 对 具有 不 可 拆 解 属 怕 
5 有 重要 地 位 ; 


业 运 输 作 业 活 动 ， 在 国民 经 济 中 上 


。 他 们 将 方法 应 月 
a I 点 位 的 位 移 数据 ， 


于 某 隧道 施工 段 2020 年 12 月 至 
以 预测 7 天 的 变形 ， 获 得 了 较 好 
具有 良好 的 应 用 价值 。 


测 问题 


的 大 型 物件 的 专 
对 国计民生 重点 行业 的 基础 设 


施 建设 起 着 重要 的 支撑 和 保障 作用 ， 也 关系 着 
运输 大 都 需要 铁路 、 航 运 等 多 式 联 运 的 方式 才 
环节 模块 联动 的 整体 方案 。 随 着 交通 系统 的 数字 化 ， 大 量 


积累 ， 基 于 数据 的 大 件 货物 运输 
于 提高 方案 制定 的 科学 性 和 适 月 


方案 
日 性 


pe. 


El 


黄 达 


国防 军事 和 国家 安全 。 大 件 货物 
能 完成 ， 需 要 制定 各 个 局 部 运输 


HE ZU 
的 相关 方案 数据 得 到 


制定 成 为 了 一 个 重要 的 问题 ， 其 研究 有 助 


[139] 利 月 


用 CE 等 多 种 数学 工具 提出 


了 一 种 基 
案 分 解 为 多 个 局 部 环节 模块 ， 再 利 
H 
(USE TS RB EA A es 30 
属性 会 具有 非 高 斯 性 ， 
而 CE 由 于 具有 普 适 性 则 依然 适 月 
该 方法 ， 并 构建 了 方案 制定 原型 系统 。 
航空 也 
价 的 站 
的 因素 以 期 改进 高 铁 票 价 的 定价 机 币 
于 京 沪 航空 和 高 铁 票 价 的 数据 ， 利 
客 选择 、 


于 模块 链 构建 的 大 件 货物 多 式 联运 方案 制定 方法 。 
用 CE 等 相关 性 度量 
于 计算 方案 之 间 的 相似 度 ， 最 后 在 已 有 运输 案例 库 中 检索 与 目标 运输 任务 相 
偷 方案 。 由 于 大 件 运 输 
使 得 传统 的 相关 系数 工具 不 再 适用 于 计算 属性 间 相 关 性 
H. (PATE 600 多 个 实 


| 是 学 界 十 分 关心 的 问题 。 许 罗 豪 等 [40] 
用 CE 和 决策 树 等 工具 
出 行 效率 和 出 行路 线 四 类 因素 对 航空 和 高 铁 票 价 的 影响 。 他 们 发 现 购 


该 方法 先 将 运输 方 
和 工具 筛选 一 组 模块 属性 


方案 的 多 样 性 ， 


一 些 案 例 模块 


1. 9 


际 案例 的 数据 上 验证 了 


[高 速 铁 路 是 我 国 最 主要 的 两 种 旅客 运输 方式 。 相 较 于 航空 ， 高 铁 票 
市 场 化 水 平 处 于 落后 的 水 平 ， 欠 缺 灵 活 怕 


E 和 动态 性 。 


因此 ， oe 


研究 了 出 行 需求 、 旅 


票 提前 期 对 两 种 票 价 的 影响 程度 不 同 ， 但 旅行 时 间 对 二 者 的 影响 程度 较为 相似 。 
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这 些 研 究 结论 对 高 铁定 价 具 有 一 定 的 参考 价值 。 

城市 轨道 交通 已 经 成 为 我 国 各 大 城市 的 主要 交通 出 行 方式 之 一 ， 提 升 城市 
轨道 交通 系统 的 管理 水 平和 运营 效率 是 交通 系统 面临 的 重要 问题 之 一 。 城 市 交 
通 客 流 分 析 与 预测 可 以 为 正常 客流 引导 、 异 常客 流 玖 导 和 轨道 列车 调度 提供 依 
据 。 基 于 出 行 记录 数据 分 析 轨 道 交 通 和 公交 、 出 租车 等 其 他 交通 方式 客流 之 间 
的 互动 关系 ， 有 助 于 提升 轨道 交通 客流 预测 效果 。 王 升 提出 利用 相关 分 析 
和 因果 分 析 等 方法 对 客流 时 序数 据 进 行 分 析 ， 以 增进 对 不 同 交通 方式 客流 之 间 
关系 的 理解 。 其 中 ， 基 于 CE 的 TE 方法 被 用 于 客流 间 因 果 关 系 分 析 。 他 将 方 
法 应 用 于 苏州 市 轨道 交通 系统 四 个 站 点 2018 年 8 H 6 日 至 12 日 期 间 的 轨道 交 
通 、 公 交 和 出 租车 客流 时 序数 据 , 因果 分 析 结 果 表 明 , 三 元 坊 和 东 环 路 站 的 出 租 
车 客流 到 轨道 交通 进 站 客流 的 影响 有 1 小 时 的 滞后 效应 ， 而 东方 之 门 站 的 这 种 
滞后 效应 则 有 5 小 时 。 这 一 分 析 结 果 对 轨道 交通 站 点 的 客流 预测 具有 重要 指导 
意义 。 

铁路 客流 量 预测 是 铁路 客运 服务 管理 的 基础 ， 准 确 的 预测 可 以 改善 铁路 运 
力 的 统一 调度 、 协 调 路 网 资源 和 提高 经 济 效益 。 但 客流 受 自 然 和 社会 因素 共同 
影响 , 准确 预测 具有 一 定 的 难度 。 作 为 一 个 典型 的 时 间 序 列 预测 问题 , 一 般 采 用 
时 序 模型 来 完成 预测 ， 这 其 中 一 个 关键 的 问题 就 是 如 何 处 理 客流 和 其 外 部 影响 
因素 之 间 的 非 线 性 关系 。Chang 和 Song 提出 了 一 种 改进 的 Prophet 客流 
预测 模型 ， 其 中 利用 CE 来 分 析 天 气 因素 和 节假日 因素 与 客流 之 间 的 非 线 性 关 
系 。 他 们 利用 2015 年 1 月 至 2016 年 3 月 期 间 的 真实 铁路 客流 数据 进行 了 实验 
研究 ， 利 用 CE 相关 性 分 析 发 现 天 气 因素 对 客流 的 影响 可 以 忽略 不 计 。 他 们 又 
基于 CE 工具 构造 选择 了 新 的 节假日 时 序 特征 ， 用 于 提高 预测 性 能 。 实 验 结果 
表明 ， 利 用 如 此 改进 的 Prophet 模型 可 以 提高 客流 预测 的 准确 性 。 


6.38 人 制造 工程 


产品 质量 是 制造 业 的 生命 。 注 射 成 型 (injection molding) 是 近年 快速 发 展 
的 工业 制造 技术 ， 在 航天 、 建 筑 、 通 讯 等 领域 有 着 广泛 应 用 。 注 射 成 型 过 程 包 
括 了 多 步 复杂 的 物理 和 化 学 反应 过 程 ， 很 容易 受到 外 部 因素 的 影响 ， 保 证 塑料 
产品 质量 的 稳定 性 是 一 个 难题 。 基 于 制造 过 程 历史 数据 ， 建 立 产 品质 量 预测 模 
型 是 提高 产品 质量 的 手段 之 一 。 但 建立 模型 需要 首先 选择 有 关 的 过 程 参数 作为 
模型 输入 ， 以 获得 较 好 的 预测 性 能 。Sun 等 [43] 提出 基于 CE 方法 选择 过 程 参 
数 变量 用 于 构建 质量 预测 模型 ， 并 将 方法 应 用 于 真实 的 富士 康 公 司 的 注射 成 型 
生产 过 程 数 据 ， 大 幅 改 善 了 质量 预测 的 性 能 。Cai 和 Rong 提出 了 一 种 鉴 
别 影响 质量 的 关键 因子 的 方法 ， 首 先 利 用 CE 建立 因子 间 相 关 和 矩阵 ， 再 用 网 络 
反 卷 积 方法 消除 因子 之 间 的 间接 影响 ， 从 而 鉴别 出 影响 质量 的 关键 因子 。 他 们 
将 方法 应 用 于 UCI 机 器 学 习 库 的 三 个 数据 集 ， 结 果 表 明 该 方法 能 够 较 同类 方法 
更 高 效 地 鉴别 关键 因子 并 取得 最 高 的 预测 准确 率 。 他 们 又 将 方法 应 用 于 一 个 薄 
膜 晶体 管 液晶 显示 器 生产 的 实际 数据 ， 结 果 显 示 ， 该 方法 从 1540 个 因子 中 选 出 
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154 个 因子 ， 并 得 到 了 最 好 的 质量 预测 精度 。 

复杂 机 械 产品 的 整 机 制造 包括 设计 、 制 造 和 装配 三 个 环节 。 作 为 产品 生产 
的 最 后 一 个 环节 ， 装 配 过 程 在 零 部 件 的 制造 过 程 基 础 上 组 装 高 精度 产品 ， 装 配 
质量 控制 在 零 部 件 制造 质量 的 基础 上 保障 整 机 产品 质量 。 复 杂 机 械 产 品 零 部 件 
数量 种 类 繁多 、 相互 关 联 , 装配 环节 错综复杂 ;上游 环 节 的 装配 质量 误差 会 对 下 
游 环节 质量 构成 影响 。 王 小 巧 [Las] 在 装配 质量 控制 中 考虑 了 上 下 游 工序 和 质量 
控制 点 之 间 的 相关 性 ， 利 用 Copula 对 控制 点 间 相关 关系 建 模 ,并 用 CE 度量 这 
种 相关 性 ， 进 而 提出 了 一 种 装配 质量 控制 点 控制 阀 优化 方法 。 她 将 方法 应 用 于 
江淮 汽车 某 型 汽油 发 动机 关键 零 部 件 缸 盖 的 装配 工序 过 程 ， 验 证 了 方法 的 有 效 
性 


现代 工业 系统 变 得 越 来 越 高 度 复杂 和 自动 化 ， 使 得 工业 过 程 监测 变 得 愈加 
困难 。 如 何 监 测 系统 异常 并 发 现 异 常 原因 是 一 个 具有 广泛 应 用 的 重要 问题 。 利 
用 因果 分 析 得 到 工业 系统 内 部 复杂 的 因果 关系 图 ， 有 助 于 准确 发 现 异常 的 传播 
路 径 ， 进 而 及 时 进行 干预 。Dong 等 [146] 提出 了 一 个 结合 动态 PCA, TE 和 
LSTM 的 故障 分 析 框 架 ， 其 中 基于 CE 的 TE 被 用 分 析 系 统 内 的 因果 关系 。 作 
者 将 该 方法 应 用 于 辽宁 鞍钢 的 热 轧 带 钢 工艺 过 程 数 据 的 分 析 ， 成 功 地 对 过 程 中 
的 两 个 故障 及 其 原因 进行 了 分 析 。 作 者 还 将 基于 TE 的 因果 图 分 析 方法 与 同类 
格 兰 杰 因 果 分 析 方法 进行 了 对 比 ， 表 明 TE 方法 能 够 更 准确 地 对 故障 进行 根 因 
分 析 。 刘 胶 阳 等 [147] las] 提出 了 一 种 动态 过 程 分 布 式 监控 的 CE-DR-SVDD Jy 
法 ， 首 先 利用 基于 CE 的 Louvain 算法 对 系统 变量 分 组 ， 再 利用 动态 递归 支持 
向 量 数据 描述 算法 构建 局 部 监控 模块 ， 最 后 利用 贝 叶 斯 推理 融合 局 部 监控 结 
来 得 到 全 局 监控 结果 。 他 将 方法 应 用 到 田纳西 伊 斯 曼 过 程 的 实验 数据 上 ， 并 与 
同类 方法 进行 了 对 比 ， 结 果 发 现 该 方法 在 仿真 的 21 个 故障 中 的 19 个 上 获得 了 
最 好 的 检测 结果 。 

烧结 过 程 (Sintering Process: SP) 在 钢铁 工业 中 至 关 重 要 ， 同 时 也 会 消耗 
大 量 的 能 源 。 动 态 预 测 SP 的 碳 消耗 有 助 于 节约 能 源 和 减少 碳 排放 。 传 统 的 SP 
建 模 基于 一 定 的 假设 , 无 法 适应 SP 的 系统 动态 特性 , 基于 数据 的 机 器 学 习 模型 
可 以 克服 传统 模型 的 不 足 。Hu 等 [149] 提出 了 一 种 动态 建 模 方法 框架 ， 可 以 自 
动 识别 过 程 工 况 状态 ， 从 而 进行 碳 消 耗 预测 。 该 方法 框架 结合 了 AKFCM R% 
算法 、 基 于 CE 的 模型 选择 和 宽度 学 习 模型 方法 。 作 者 在 一 家 钢铁 企业 的 实际 
数据 上 验证 了 方法 的 有 效 性 ， 证 明了 CE 可 以 快速 地 捕捉 不 同 工 况 下 SP 中 复 
杂 的 相关 关系 模式 ， 从 而 使 该 方法 能 够 比 传统 方法 更 准确 地 预测 烧结 碳 消耗 。 


6.39 ”可靠 性 工程 


退化 过 程 (degradation processes) 在 各 种 工程 系统 中 普遍 存在 ， 导 致 系统 
可 靠 性 的 降低 甚至 失效 ， 如 人 金属 材料 的 疲劳 和 腐蚀 、 半 导体 器 件 的 参数 漂移 等 。 
退化 过 程 建 模 是 评估 系统 和 产品 有 效 性 和 寿命 的 主要 技术 手段 之 一 。 由 于 现代 
系统 的 复杂 性 ， 影 响 退 化 过 程 的 因素 较 多 ， 因 素 变量 本 身 具 有 非 线性 特征 ， 且 
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变量 之 间 又 相互 关联 ， 从 而 对 退化 过 程 建 模 构成 了 可 靠 性 工程 的 一 个 基本 难题 。 
如 果 建 模 时 忽略 了 因素 之 间 的 相关 性 ,就 会 导致 模型 错误 和 可 靠 性 估计 误差 。 传 
统 的 衡量 因素 之 间 的 相关 性 主要 采用 线性 相关 系数 ， 难 以 处 理 复杂 的 相关 关系 。 
Sun 等 [150] 提出 采用 copula 对 过 程 因 素 之 间 关系 建 模 ， 并 用 CE 来 度量 退化 
过 程 因 素 之 间 的 关联 。 他 给 出 了 一 种 参数 化 CE 估计 方法 ， 并 成 功 应 用 于 微波 
电子 组 件 的 退化 过 程 分 析 中 。 结 果 表 明 ， 该 方法 能 够 分 析 不 同 阶段 的 退化 过 程 。 

砂轮 是 数控 磨床 的 关键 核心 部 件 ， 用 于 对 工件 表面 进行 磨 削 加 工作 业 ， 其 
物理 磨损 程度 直接 影响 加 工 质量 和 效率 。 因 此 ， 砂轮 的 维修 和 保养 十 分 重要 , 如 
何 对 其 进行 预测 性 维护 是 一 个 关键 的 问题 。 程 损 用 5 相 提出 了 一 种 基于 CE 和 
最 大 相关 最 小 元 余 的 特征 选择 方法 ， 用 于 构建 砂轮 剩余 寿命 预测 模型 。 他 基于 
OZ EVAL CPM2.2 凸轮 轴 生 产 线 上 5 个 磨床 上 55 个 参数 的 SCADA 数据 ， 对 
比 了 多 种 相关 性 特征 选择 方法 ， 发 现 基于 CE 的 方法 能 够 有 效 地 计算 出 传统 相 
关 性 方法 不 能 发 现 的 非 线性 特征 关系 ,得 到 的 15 个 参数 与 砂轮 剩余 寿命 密切 相 
关 ， 符 合 磨床 运行 机 理 。 


6.40 ”冶金 工程 


高 纯 金属 材料 是 具有 很 高 纯度 的 特殊 材料 , 具有 高 电导 率 和 稳定 性 、 良 好 的 
光学 性 能 等 物理 特性 ， 是 制造 各 种 精密 科学 仪器 和 高 科技 产品 的 必 备 材料 。 制 
备 高 纯 金属 需要 精密 的 工艺 来 保证 高 纯度 ， 但 传统 工艺 方法 普遍 存在 制备 纯度 
低 的 问题 。 真 空 蒸馏 法 则 可 以 绿色 高 效 地 提纯 金属 ， 但 其 工艺 参数 需要 手动 调 
节 ， 依 赖 于 人 的 经 验 。 田 庆 华 等 提出 了 一 种 真空 蒸馏 制备 高 纯 金 属 的 优化 
方法 ， 利 用 CE 等 机 器 学 习 技 术 筛 选 出 能 够 保证 高 纯度 和 低 杂 质 的 工艺 参数 集 
合 ， 建 立 以 纯度 和 杂质 含量 为 目标 变量 的 预测 模型 ， 再 基于 此 模型 利用 参数 寻 
优 方法 得 到 最 佳 工艺 参数 ， 用 于 高 纯 金 属 制备 。 他 利用 该 方法 进行 了 真空 蒸馏 
制备 高 纯 金 属 硒 和 人 磋 的 工艺 参数 优化 实验 ， 基 于 CE 等 特征 选择 方法 发 现 蒸馏 
温度 、 保 温 时 间 、 冷 凝 温度 和 真空 度 对 制备 纯度 具有 重要 性 ， 保 温 时 间 、 落 饮 
温度 、 升 温 速 度 和 冷凝 温度 对 杂质 含量 具有 重要 性 。 经 过 不 断 的 迭代 循环 实验 ， 
该 方法 所 得 工艺 参数 能 够 获得 良好 的 制备 效果 ， 可 以 根据 不 同 产 品 需 求 对 工艺 
参数 进行 自动 控制 优化 。 


641 化 学 工程 


故障 诊断 对 化 学 过 程 的 安全 、 高 效 运行 至 关 重 要 , 数据 驱动 的 故障 诊断 方法 
是 实际 生产 运行 中 的 主要 方法 之 一 。 为 了 构建 诊断 模型 , 构建 合理 的 正常 和 故障 
状态 的 过 程 表 示 是 问题 的 关键 环节 。Yin 等 提出 了 一 种 基于 CE 的 灰 度 相 
关 空 间 的 故障 诊断 方法 ， 通 过 变量 之 间 的 CE 相关 性 矩阵 来 刻画 过 程 的 正常 和 
故障 状态 , 再 将 矩阵 作为 卷 积 神经 网 络 的 输入 来 构建 故障 分 类 模型 。 他 们 将 方法 
应 用 于 田纳西 伊 斯 曼 (Tennessee Eastman) 过 程 的 故障 诊断 数据 ， 结 果 表 明 该 
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方法 取得 了 95% 以 上 的 诊断 准确 率 ,验证 了 方法 的 有 效 性 。 主 元 分 析 法 (PCA) 
是 一 种 常用 的 多 变量 过 程 检测 方法 ， 原 理 是 基于 最 大 方差 准则 从 一 组 过 程 变量 
构建 过 程 检测 统计 量 ， 但 其 仅 适 用 于 线性 的 情况 。Wei 和 Wang 上 54 [5 中 提出 
了 一 种 基于 CE 的 非 线性 PCA 方法 (CEPCA) ， 从 具有 非 线性 特征 的 CE 所 
阵 得 到 过 程 检测 统计 量 。 他 们 将 方法 应 用 于 田纳西 伊 斯 曼 过 程 数据 ， 并 与 PCA 
方法 进行 了 对 比 ， 结 果 表 明 ，CEPCA 方法 获得 了 更 好 的 故障 检测 率 结果 。Pan 
等 [56] 提出 了 一 个 基于 关联 故障 因果 图 构建 的 故障 传播 和 根 因 分 析 方法 ， 称 为 
KPCA-DTMTE， 其 中 基于 CE 的 TE 被 用 于 分 析 因果 关系 。 他 们 将 该 方法 应 
用 于 田纳西 伊 斯 曼 过 程 ， 证 明了 方法 能 够 追踪 故障 传播 路 径 并 获知 故障 发 生 原 
因 。 

理解 化 工 过 程 变量 之 间 的 因果 关系 对 于 过 程控 制 十 分 重要 ， 有 助 于 更 好 的 
过 程 监测 和 故障 诊断 。 利 用 因果 发 现 方法 构建 化 工 过 程 因果 关系 图 ， 可 以 对 故 
障 进行 根 因 分 析 ， 是 故障 诊断 的 重要 方法 之 一 。Bi 等 [57] 提出 了 一 种 基于 深 
度 学 习 进 行 因果 发 现 的 CGTST 方法 ， 并 与 基于 CE 的 TE 等 多 种 方法 进行 了 
对 比 。 实 验 结果 表明 ,在 一 个 5 变量 的 连续 搅拌 模式 反应 器 数据 上 ，TE 方法 获 
得 的 反应 图 结果 非常 接近 于 真实 情况 ; 在 田纳西 伊 斯 曼 过 程 数据 上 ，TE 方法 也 
取得 了 接近 于 真实 情况 的 估计 结果 ， 体 现 出 了 较 强 的 实用 性 。 

软 测量 技术 是 化 工 过程 建 模 的 重要 方法 之 一 ， 指 通过 易 测量 的 过 程 变量 来 
估计 推断 难以 直接 测量 的 过 程 变量 。 然 而 , 受 实际 生产 过 程 中 设备 故障 、 环 境 二 
扰 和 信号 传输 等 多 种 因素 的 影响 ， 过 程 变量 数据 往往 包含 大 量 的 缺失 值 ， 因 此 
需要 进行 缺失 值 补 全 。 生 成 对 抗 补 全 网 络 (Generative Adversarial Imputation 
Nets: GAIN) 是 一 种 以 生成 对 抗 网 络 算法 框架 为 基础 的 数据 补 全 方法 ， 但 当 缺 
失 值 数量 较 大 时 ， 算法 的 性 能 难以 满足 实际 需求 。 武 吴 [158] 提出 了 一 种 改进 设 
计 的 GAIN 算法 框架 ， 称 为 信息 增强 GAIN (IEGAIN)， 其 中 CE 被 用 于 计算 
权重 矩阵 以 作为 新 算法 中 生成 器 的 输入 。 他 分 别 在 UCT 的 Spam 和 Letter 数 
据 集 、 公 开 的 火电 厂 数据 集 和 脱 丁 烷 塔 过 程 数据 集 和 实际 的 聚 丙烯 生产 过 程 数 
据 上 , 将 IEGAIN 与 GAIN 等 其 它 经 典 算法 进行 了 对 比 , 结果 表明 IEGAIN 能 
够 以 最 低 的 误差 补 全 数据 缺失 值 。 


= 


6.42 ”航空 航天 


航空 飞行 器 系统 日 趋 复杂 ， 飞 行 器 设计 首先 需要 加 深 对 其 总 体 设计 参数 的 
认识 。 对 各 种 设计 参数 间 的 耦合 关系 的 理论 分 析 ， 有 助 于 分 析 设计 方案 可 行 性 
或 优化 总 体 设计 方案 。Krishnankutty 等 [159] 基于 CE 与 MI 的 等 价 关系 ， 提 
出 了 两 种 基于 Copula 的 MI 估计 方法 ， 并 将 方法 应 用 于 美国 22 种 喷气 战斗 机 
的 技术 参数 数据 的 分 析 ， 估 计 了 飞行 航程 和 可 承受 负载 之 间 的 耦合 关系 ， 验 证 
了 分 析 方法 的 有 效 性 。 

卫星 是 航天 时 代 的 主要 航天 器 类 型 ， 在 信息 时 代 有 着 广泛 的 民事 和 军事 用 
途 。 作 为 一 种 在 极端 环境 运行 的 复杂 系统 ， 卫 星 的 在 罗 健 康 状 态 监测 十 分 重要 。 
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卫星 遥测 数据 是 各 种 传感器 参数 的 编码 ， 包 含 了 卫星 内 部 运行 系统 物理 参数 的 


交互 关系 信 


度量 ， 称 为 


的 CN-FA-LSTM 


息 。 卫星 的 异常 模式 会 由 于 这 种 交互 而 在 内 部 传播 ， 因 此 分 析 这 种 
内 部 交互 导致 的 故障 传播 链条 有 助 于 及 时 发 现 卫星 异常 状态 ， 保 障 卫 星 正常 运 
行 。 分 析 遥 测 参数 之 间 的 因果 关系 是 一 种 解决 问题 的 路 径 。Liu 等 [160] 提出 直 
接 将 基于 CE 的 TE 应 用 于 分 析 真 实 的 卫星 通 测 数据 ， 得 到 了 通 测 参数 之 间 的 
故障 传导 图 , 结果 要 优 于 传统 的 TE 方法 。Zeng 等 [161] 提出 了 一 种 改进 的 TE 
NMCTE， 用 于 分 析 遥 测 参数 之 间 的 因果 关系 网 络 ， 该 度量 利用 了 


基于 CE 的 TE 表示 和 估计 方法 。 他 们 又 提出 了 基于 所 得 因果 网 络 的 异常 检测 
方法 。 他 们 将 NMCTE 方法 应 用 于 真实 的 卫星 遥测 数据 ， 得 


到 了 具有 良好 的 可 解释 性 的 因果 网 络 。 他 们 又 将 CN-FA-LSTM 方法 在 NASA 
公开 的 SMAP 和 MSL 数据 集 上 与 其 它 6 种 方法 进行 了 对 比 ， 验 证 了 方法 的 优 


越 性 。 


涡 肩 发 动机 是 喷气 式 飞 机 最 常用 的 发 动机 ， 具 有 高 效 、 可 靠 和 节能 的 特点 ， 


是 现代 航空 业 的 关键 设备 之 一 。 涡 扇 发 动机 结构 复杂 ， 且 长 期 在 极端 环境 下 运 
行 ， 导 致 其 容易 出 现 磨损 和 老化 ， 因 而 监测 其 健康 状态 ， 进 而 开展 故障 预测 和 
维修 保养 ， 对 于 保障 航空 安全 、 提 高 涡 肩 发 动机 的 可 笔 性 和 使 用 寿命 至 关 重 要 。 


Du, WHn] 


靠 度 。 他 将 方法 应 月 


两 种 传统 方 


PE 估 发 动机 的 健康 状态 是 一 个 基础 性 的 关键 问题 。 贾 如 侠 已 6 提出 
了 一 种 涡 扇 发 动机 的 健康 指标 ， 采 用 证 据 推理 方法 融合 发 动机 传感器 监测 数据 
度量 发 动机 健康 状态 ， 其 中 CE 被 用 于 推理 过 程 中 计算 发 动机 传感器 变量 的 可 
于 NASA 格林 中 心 提供 的 引擎 性 能 退化 模拟 数据 集 ， 并 与 


法 进行 了 对 比 ， 绪 果 表 明 新 方法 对 发 动机 健康 状态 的 评 佑 效果 更 好 ， 


这 得 益 于 方法 融合 了 基于 CE 度量 的 传感器 变量 间 非 线性 相关 性 信息 。 他 进 一 
步 利 用 得 到 的 一 维 复合 健康 指标 建立 了 发 动机 故障 预测 模型 和 剩余 寿命 预测 模 


型 ， 都 获得 了 较 对 比方 法 更 精确 的 预测 效果 。 


航班 延 
成 出 行 不 便 


误 是 影响 国际 民航 业 正 常 有 效 运行 的 主要 问题 之 一 ， 不 仅 给 旅客 造 


， 也 给 航空 业 带 来 


巨大 经 济 损失 。 航空 系统 是 一 个 有 机 的 整体 ,运行 


中 存在 航班 资源 的 上 下 游 共 享 ， 带 来 了 系统 籼 合 ， 导 臻 上 游 航 班 的 到 港 延误 会 
向 下 游 传播 ， 因 此 航班 延误 管控 首先 需要 对 这 种 延误 因果 关系 进行 分 析 。 吴 格 


等 [163] 提出 利 有 


一 种 基于 CE 的 TE 佑 计 器 来 分 析 机 场 的 航班 延误 时 间 序 列 
之 间 的 因果 关系 强度 的 方法 ， 使 民航 信息 系统 具有 了 分 析 两 个 航班 之 间 是 否 具 


有 延误 因果 关系 的 能 力 ， 从 而 能 够 深入 理解 和 利用 航空 系统 节点 间 航 班 延误 的 


内 在 关系 。 


6.43 ”兵器 工程 
武器 装备 效能 评估 是 指 对 某 一 武器 的 技术 指标 和 作战 性 能 进行 全 面 、 系 统 、 


科学 的 分 析 和 六 


F 价 。 由 于 武器 装备 系统 及 其 运用 的 复杂 性 ， 评 佑 需要 考虑 多 方 


面 因 素 ， 因 此 就 需要 一 套 综合 的 指标 体系 来 完成 评估 。 效 能 指标 体系 往往 包含 


量 不 同类 型 的 指标 , 从 而 造成 指标 之 间 具 有 相关 性 ， 导 致 指标 体系 维 数 大 , 需 
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要 对 其 进行 约 简 ， 以 利于 后 续 的 评估 流程 。 传 统 的 约 简 方法 一 般 采 用 相关 系数 
等 数学 工具 ， 但 其 线性 假设 在 实际 问题 通常 得 不 到 满足 。 陈 爱 真 等 Bd) 提出 了 
一 种 指标 体系 约 简 方法 ， 利 用 CE 度量 指标 之 间 相关 性 ， 通 过 比较 每 个 指标 与 
其 它 指标 之 间 的 平均 CE 来 约 简 指 标 。 他 利用 评估 对 象 的 仿真 数据 实施 验证 了 
该 方法 ， 证 明了 该 方法 具有 可 处 理 指标 间 非 线性 相关 性 关系 的 优点 ， 较 传统 方 
法 更 为 科学 和 准确 。 


mi 


6.44 车 辆 工程 


现代 汽车 的 电子 设备 系统 由 车 载 网 络 连接 集成 ， 提 高 了 乘坐 的 舒适 性 、 安 
全 性 和 多 功能 特性 。 但 随 着 智能 车 辆 技术 的 发 展 ， 车 内 设备 也 成 为 了 黑客 攻 
的 对 象 ， 对 车 辆 安全 构成 了 威胁 。CAN 总 线 是 一 种 智能 车 辆 内 连接 控制 各 个 车 
辆 电子 组 件 的 数据 通信 协议 ， 已 在 汽车 领域 成 为 事实 上 的 主流 标准 ， 但 由 于 缺 
乏 加 审 、 认 证 等 机 制 ， 其 在 网 络 攻击 面前 非常 脆弱 。 因 此 ， 研 究 CAN 总 线 的 入 
侵 检测 技术 成 为 了 提高 其 安全 性 的 主要 技术 手段 之 一 。Gao 等 [165] 提出 了 一 
种 轻 量 级 神经 网 络 设计 方法 ， 用 于 检测 CAN 总 线 入 侵 事件 ， 其 首先 分 析 异 党 
CAN 数据 帧 的 属性 集合 ， 再 利用 CE 选择 出 众多 属性 中 与 人 侵 攻 击 有 关 的 少数 
属性 ， 再 利用 这 些 属性 构建 一 种 CanNet 神经 网 络 检测 器 以 检测 入 侵 。 他 们 利 
用 现代 汽车 索纳塔 YF 的 CAN 总 线 数据 验证 了 CanNet 方法 ， 结 果 表 明 该 方 
法 与 同类 方法 相 比 具有 高 检测 率 、 高 实时 性 和 低 内 存 占用 的 优点 。 


ET 


6.45 ”电子 工程 


半导体 芯片 的 集成 度 的 不 断 提 高 ， 对 微 电 子 封装 的 要 求 也 越 来 越 高 。 微 电 
子 封装 起 着 隔绝 外 部 环境 、 散 发 内 部 热量 的 功能 ， 对 集成 电路 的 稳定 运行 具有 
至 关 重 要 的 保护 作用 。 这 就 要 求 封装 材料 具有 良好 稳定 性 、 高 强度 ,同时 还 要 满 
足 其 他 物理 性 质 。 刘 过 B66] 以 Cu 基 材 料 为 主体 ， 建 立 CuNi 二 元 合金 体系 ， 
利用 第 一 性 原理 与 机 器 学 习 相 结合 的 方法 ， 基 于 团 徐 相关 函数 特征 ， 预 测 分 别 
与 材料 强度 和 稳定 性 相关 的 构 型 能 和 杨 氏 模 量 。 作 者 利用 CE 分 析 了 预测 模型 
的 合理 性 ， 通 过 计算 特征 之 间 的 相关 性 ， 以 及 特征 与 构 型 能 和 杨 氏 模 量 之 间 的 
相关 性 ， 发 现 模型 特征 与 杨 氏 模 量 之 间 的 相关 性 更 高 ， 同 时 构 型 能 与 杨 氏 模 量 
之 间 的 相关 度 较 低 ， 增 进 了 模型 的 可 解释 性 ， 有 助 于 设计 更 合理 的 材料 性 质 预 
测 模型 。 


6.46 ”通信 工程 

通信 安全 是 移动 通讯 的 主要 关切 之 一 ， 一 般 通 过 通信 层 的 加 密 技 术 加 以 解 
决 。 在 资源 受 限 的 新 兴 网 络 (如 IoT. WSN 等 ) 中 ， 密 钥 分 发 是 一 个 挑战 。 无 
线 信道 的 互 易 性 为 通信 双方 提供 了 共享 密 钥 的 机 制 ， 双 方 可 通过 测量 无 线 信 道 
获取 密 钥 。 密 钥 容 量 概念 为 无 线 信道 密 钥 提取 提供 了 理论 上 限 。 然 而 ,现实 中 密 
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量 往往 受到 诸多 实际 物理 条 件 (如 终端 移动 、 信 道 噪声 等 ) 的 限制 ,需要 对 
行 定量 分 析 。Wang 等 [167] 研究 了 均匀 散射 环境 下 物理 因素 对 密 钥 容 量 的 
影响 ， 将 其 转化 为 随机 变量 的 MI 计算 问题 ， 并 基于 仿真 物理 环境 验证 其 理论 
推导 的 正确 性 ， 仿 真实 验 采用 了 基于 CE 的 MI 估计 算法 估计 密 钥 容 量 。 仿 真 
结果 表明 ， 理 论 推导 得 到 了 验证 ， 能 够 指导 实际 应 用 。 

第 6 代 (6G) 通信 网 络 技术 的 研发 需要 面 对 的 主要 挑战 之 一 就 是 要 达到 更 
高 的 数据 传输 率 ， 以 满足 更 极致 的 体验 、3D 视觉 、 工 业 智 能 等 场景 需求 。 传 统 
的 通信 理论 没有 考虑 传输 信息 中 的 语义 信息 ， 而 6G 技术 可 以 利用 基于 AI 的 
语义 通信 来 达到 更 高 的 网 络 传输 性 能 。 传 宇 舟 等 [8] 提出 了 一 种 面向 OG 网 络 
的 基于 语义 通信 的 端 到 端 服务 框架 ， 将 语义 通信 与 AI 的 语义 分 析 能 力 相 融 合 ， 
利用 基于 Transformer 的 编 解码 器 来 压缩 语义 信息 。 其 中 ， 语 义 编码 器 的 损失 
函数 由 基于 欧式 距离 的 语义 损失 函数 和 基于 CE 的 信息 量 损失 函数 组 成 。 他 们 
利用 图 像 数据 验证 了 该 服务 框架 ， 使 用 ImageNet-1K 数据 集训 练 框架 ， 再 使 用 
VOC2012 数据 集 进行 仿真 验证 。 结 果 表 明 ， 与 传统 通信 方案 相 比 ， 该 服务 框架 
在 目标 检测 和 图 像 语义 重建 上 均 取 得 了 最 优 性 能 ， 且 取得 了 与 全 语义 特征 传输 
方案 相近 的 性 能 ， 有 望 成 为 6G 网 络 的 技术 内 容 。 


6.47 高 性 能 计算 
提高 能 源 效率 是 高 性 能 计算 研究 的 一 个 重要 目标 。 通 过 配置 程序 的 最 优 能 
效 设置 ， 如 处 理 器 频率 等 ,可 以 降低 程序 执行 时 的 能 耗 。 但 决定 最 优 配置 是 一 个 
费时 的 过 程 ， 程 序 一 旦 修改 就 需要 重新 配置 。 利 用 机 器 学 习 方法 通过 性 能 事件 
来 自动 决定 最 优 配置 是 一 个 新 的 研究 方向 ， 但 需要 确定 哪些 事件 是 能 效 相关 的 
以 决定 最 优 配置 。Gocht-Zech 提出 利用 特征 选择 的 方法 来 选择 能 效 相关 事 
件 ， 他 选择 了 6 种 特征 选择 方法 ， 并 基于 CE 理论 给 出 了 相应 的 估计 方法 。 实 
际 数据 实验 表明 该 基于 copula 的 方法 能 够 鉴别 出 能 效 相关 的 性 能 事件 ， 从 而 提 
高 程序 执行 时 的 能 效 ， 在 增加 7% 运行 时 的 成 本 下 节省 了 24% 的 能 源 消耗 。 


6.48 ”信息 安全 


对 抗 性 攻击 和 防御 是 信息 安全 领域 的 热点 问题 ， 是 指 攻击 者 利用 对 系统 和 
算法 的 特性 的 了 解 发 动 的 攻击 以 及 相应 的 防御 手段 。 深 度 神 经 网 络 是 机 器 学 习 
领域 的 一 类 重要 算法 ， 应 用 领域 十 分 广泛 ， 研 究 其 攻击 和 防御 算法 对 该 类 人 工 
智能 系统 的 安全 具有 重要 意义 。Liu 等 [170] 提出 了 一 个 基于 CE 的 MI 估计 算 
法 ， 称 为 CE?， 并 利用 此 算法 提出 了 一 个 神经 网 络 对 抗 训 练 算法 。 该 算法 充分 
利用 了 基于 CE 的 MI 估计 对 对 抗 攻击 的 可 靠 性 ， 设 计 网 络 训练 算法 以 引导 神 
经 网 络 预测 模型 最 小 化 对 抗 样本 的 攻击 。 作 者 首先 通过 仿真 实验 证 明了 CE? 相 
对 于 传统 MI 估计 算法 的 性 能 优势 ， 然 后 在 CIFAR-10 和 CIFAR-100 数据 集 上 
验证 了 基于 CE? 的 神经 网 络 防御 算法 在 典型 深度 神经 网 络 对 抗 性 攻击 的 防御 


= 
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中 相对 于 其 他 同类 经 典 防御 算法 的 优越 性 。 


6.49 测绘 遥感 


高 光谱 遥感 是 应 用 广泛 的 前 沿 测绘 技术 ， 通 过 遥感 光谱 成 像 ， 能 够 获取 不 
同 地 物 的 诊断 性 光谱 信息 。 由 于 高 光谱 图 像 波段 数 多 ， 数 据 大 且 存 在 大 量 宛 余 
信息 ， 需 要 利用 特征 提取 技术 对 有 效 波段 进行 选择 ， 以 表征 成 像 对 象 体 。 因 此 ， 
高 光谱 图 像 波 段 选择 是 该 领域 的 重要 问题 之 一 ， 主 要 思想 是 选择 一 个 波段 子 集 ， 
使 得 成 像 评价 准则 函数 达到 最 大 。 其 中 ， 基 于 信息 论 的 准则 是 波段 选择 的 主要 
方法 之 一 。Zeng 和 Durrani [171] 提出 利用 基于 CE 的 MI 选择 波段 的 方法 ， 并 
将 其 应 用 于 美国 印第安 纳西 北 的 Indian Pine 处 采集 的 真实 高 光谱 数据 , 结果 表 
明 CE 提供 了 一 种 鲁 棱 的 MI 波段 选择 方法 。 


6.50 ”海洋 工程 


人 类 对 海洋 空间 的 探索 是 海洋 工程 建设 、 海 洋 资源 开发 和 管理 以 及 海洋 军 
事 行动 等 活动 的 基础 ， 海 洋 底 质 信 息 探测 是 诸多 活动 的 前 提 ， 因 而 是 海洋 测绘 
学 研究 的 重要 问题 之 一 。 多 波束 声呐 系统 是 海洋 测绘 领域 的 主要 调查 设备 之 一 ， 
可 以 用 来 通过 声学 探测 获取 海底 的 底 质 信息 并 对 其 进行 分 类 。 赵 廷 眉 73 提出 了 
一 整套 多 波束 声呐 海底 底 质 分 类 技术 ， 在 多 波束 反 向 散射 图 像 的 基础 上 提取 一 
组 空间 、 频 率 和 尺度 特征 ， 再 利用 CE 等 相关 性 工具 去 除 其 中 的 宛 余 特征 ， 最 
后 利用 筛选 后 的 特征 构建 底 质 分 类 模型 。 他 在 比利时 Oostende Harbor 数据 集 
上 对 提出 的 特征 选择 和 模型 构建 方法 进行 了 实验 验证 ， 结 果 表 明 ， 利 用 CE 等 
工具 可 以 发 现 特征 之 间 的 非 线性 相关 关系 ， 在 此 基础 上 去 除 完 余 特征 后 ， 模 型 
的 分 类 性 能 得 到 了 显著 提升 。 


6.51 金融 工程 


量化 金融 是 通过 对 金融 数据 的 数量 关系 分 析 指 导 金 融 决 策 的 新 兴 金 融 学 科 。 
基于 金融 交易 系统 产生 的 大 量 金 融 市 场 交易 数据 ， 利 用 数学 工具 分 析 金 融 产 品 
之 间 的 数量 关系 ,可 以 明晰 市 场 规律 和 动态 ,进而 管理 金融 资产 。 其中， 分 析 市 
场 金融 变量 之 间 的 相关 性 是 金融 工程 的 重要 问题 ， 可 以 帮助 交易 员 洞 察 它们 之 
间 的 动态 关系 ， 进 而 调整 投资 组 合 和 管理 风险 。 由 于 金融 市 场 变量 具有 非 线性 、 
非 高 斯 性 等 特征 , 使 得 MI 成 为 了 理想 的 相关 性 度量 , 而 MI 估计 算法 则 成 了 量 
化 金融 工具 箱 的 重要 工具 之 一 。 基 于 CE 的 MI 估计 算法 就 被 量化 金融 算法 库 
MLFinLab 和 ArbitrageLab 实现 ， 并 得 到 业界 广泛 应 用 。 
于 中 国 股票 市 场 ( 沪 市 A 股指 数 、 深 市 A 股指 数 和 沪 深 300 指数 ) 真实 
数据 ，Wang [175] 研究 了 利用 股票 资产 之 间 的 相关 性 关系 网 络 ， 优 化 投资 组 合 
的 方法 。 方 法 采用 了 包括 CE 在 内 的 线性 和 非 线性 相关 性 度量 ， 基 于 相关 性 强 
度 构 建 股票 资产 间 的 关系 网 络 ， 进 而 构建 投资 组 合 。 研 究 中 估计 了 不 同 Copula 


6 实际 应 用 


参数 函数 族 的 CE (MI). Beg [LTO] 研究 了 投资 标的 筛选 的 问题 ， 他 
资产 收益 率 、 净 利润 三 年 复合 增长 率 和 ji 
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E p ds A 股 4000 多 家 上 市 


T 


公司 中 初步 第 选 了 10 家 A 股 上 市 公司 ， 再 利用 CE 等 工具 对 标的 股票 的 价格 
数据 进行 了 统计 分 析 ， 以 判断 投资 组 合 的 抗 风险 能 


股票 市 场 的 投资 者 总 是 希望 投资 发 展 良好 的 上 市 公司 ， 因 此 甄别 


t mi 
只 股票 


的 好 坏 对 投资 者 十 分 重要 。ST 股票 制度 是 在 我 国 A 股市 场 实施 的 股票 风险 警 
示 机 制 ， 有 助 于 投资 者 选择 投资 组 合并 规避 风险 。 股 票 分 类 是 股票 分 析 领 域 的 


一 类 重要 问题 ,对 4 


人 融 市 场 投资 者 具有 参考 价值 。 朱 4 


JUL [i77] 提出 了 一 种 基于 


机 器 学 习 方法 的 ST 股票 分 类 方法 ， 采 用 Boruta 算法 和 CE 方法 进行 特征 选 


TE, 再 利用 6 种 回归 模型 进行 预测 ， 利 月 


H Optuna 框架 对 模型 的 超 参 数 寻 优 。 他 


选取 了 tushare 数据 库 中 上 交 所 和 深交 所 的 2076 只 股票 (GF 351 只 ST 股票 ) 


模型 组 合 上 获得 了 最 好 的 预测 精度 。 
分 析 金 融 数 据 需 要 对 其 建 模 数学 模型 ， 但 金融 变量 以 及 其 联合 分 布 具 有 非 


高 斯 性 ， 给 数据 建 模 带 来 了 挑战 。Calsaverini 
巧妙 的 Copula 函数 模型 选择 方法 。 该 方法 利 月 
将 Copula 鉴别 问题 的 目标 与 边缘 函数 分 开 ， 再 利 月 


自 2016 年 以 来 的 数据 ， 含 有 139 个 股票 特征 变量 ， 最 终 利用 Boruta 和 CE 77 


法 筛选 了 7 个 可 解释 的 变量 。 模 型 预测 结果 表明 该 方法 在 筛选 特征 和 XGBoost 


和 Vicente [173.79] 给 出 了 一 种 
H CE (MI) 的 边缘 分 布 无 关 特 性 ， 
H CE 的 定义 , 将 问题 转化 为 


以 MI 为 上 界 的 模型 选择 问题 。 作 者 还 定义 了 超 量 信息 (Informaion Excess) 的 


概念 。 作 者 将 建 模 方 法 应 有 


HF 1990 # 2008 年 间 标 普 500 指数 的 150 只 股票 的 


日 对 数 收益 率 数据 ,， 利 用 超 量 信息 ,验证 了 该 方法 作用 于 T-Copula 函数 族 时 


的 有 效 性 。 


R Jë Copula 是 一 种 灵活 的 构建 多 元 copula 分 布 的 工具 ， 确 定 蕨 的 结构 是 
建立 此 类 模型 的 关键 步骤 。Alanazi [180] 基于 CE 和 MI, CMI 之 间 的 关系 ， 提 


出 了 一 种 R Jë copula 的 构建 方法 ,基于 MI 建立 最 小 4 
每 对 边 上 的 CMI， 根 据 CMI 建立 新 的 子 树 间 
该 R. Jë copula 构建 方法 应 用 于 股票 间 相 关 结 


构 的 建 模 问 题 ， 基 于 德 


成 树 ， 再 计算 前 一 子 树 
FERRER copula 的 层级 结构 。 他 将 


E] DAX Jë 


数 15 种 主要 股票 数据 (2005 年 1 月 至 2009 年 8 H) 构建 了 资产 间 关 系 结构 
的 R Jë copula 模型 ， 与 传统 方法 相 比 ， 该 方法 建立 的 copula 相关 结构 模型 能 
够 更 好 地 拟 合 数据 。 王 念 镶 [isi] 基于 CE 与 MI, CMI 之 间 的 关系 提出 了 一 个 


类 似 的 腾 copula 结构 


的 相关 结构 ， 利 月 
基于 Kendall FAK ABH copula 结构 和 


H 20 


选择 算法 。 作 者 利用 该 算法 分 析 了 中 证 五 大 行业 指数 之 间 


19 年 3 月 1 日 至 2022 年 3 月 1 日 之 间 


的 数据 ， 构 建 了 


于 MI HRX copula 结构 ， 结 果 表 


明 ， 从 拟 合 优 度 指标 看 ， 后 者 的 结果 优 于 前 者 的 结果 ; 从 可 解释 性 角度 看 ， 后 者 


的 结果 刻画 的 五 大 行业 资产 之 间 的 依赖 关系 更 合理 。 
金融 系统 的 系统 性 风险 问题 受到 各 国 监管 部 门 的 关注 。 


金融 危机 的 发 生 


我 国 股票 市 场 放 开 管 
HMA, MMMKT ASH 


出 加 深 了 经 济 金 融 的 一 体 化 程度 ， 造 成 了 各 个 行业 之 间 的 


E 风 险 的 程度 ， 因 此 需要 对 跨行 业 的 风险 洲 出 效应 加 以 


6 实际 应 用 
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研究 , 以 期 进行 防范 和 化 解 。 炉 作为 量化 不 确定 性 的 数学 工具 ， 
融 风险 组 合 。 熊 靖宇 (182) 采用 CE 等 工具 对 2005 年 1 月 5 日 


十 分 适合 度量 金 
至 2020 年 7 月 3 


日 我 国 股票 市 场 11 个 行业 的 日 对 数 收益 率 数据 进行 了 分 析 ， 研 究 行业 个 体 风 险 
和 跨行 业 风 险 溢出 特征 的 动态 演变 过 程 , 特别 针对 2008 年 金融 危机 、2013 FER 
HEA 2015 年 股灾 三 个 时 期 的 风险 特征 进行 研究 。 研 究 发 现 , 行业 联合 CE 动态 


变化 浪 后 于 累加 独立 炉 发 生 ， 说 明了 行业 间 联 动 导致 了 系统 怕 


PRIR. 


风险 增强 ; 2008 


金融 危机 的 市 场 内 部 传染 性 更 强 ， 破 坏 程度 更 大 ; 近期 11 个 行业 内 部 关联 水 


金融 脆弱 性 是 由 金融 部 门 自身 高 负债 经 营 带 来 的 内 在 不 稳定 性 。 金 融 脆弱 


性 度量 工具 可 以 使 国家 及 时 地 对 危机 进行 响应 和 干预 ， 因 此 得 


到 了 大 量 的 研究 。 


日 益 成 熟 的 网 络 分 析 理 论 为 从 金融 网 络 的 角度 度量 金融 脆弱 性 提供 了 方法 工具 


但 传统 的 网 络 构建 方法 只 是 基于 线性 关系 度量 工具 ， 如 皮尔 逊 相关 系数 等 ， 不 
能 够 反映 金融 系统 中 的 非 线性 关系 特性 。Chen 等 [183] 提出 了 一 种 利用 CE 改 


进 的 网 络 曲率 (Network Curvature) 金融 脆弱 性 度量 方法 ， 该 方法 先 利 用 CE 


构建 金融 网 络 , 再 计算 网 络 的 四 种 离散 Ricci 曲率 作为 市 场 脆 对 


号 性 度量 。 他 们 将 


该 度量 方法 应 用 于 2006 年 4 月 至 2022 年 4 月 间 沪 深 300 指数 的 股票 数据 ,分 


析 金 融 危 机 前 后 的 市 场 脆 弱 性 。 结 果 表 明 ， 该 度量 方法 比 基 于 皮尔 逊 相关 的 方 
法 更 清晰 地 描述 了 金融 危机 后 市 场 的 脆弱 性 ， 且 具有 传统 风险 度量 同样 的 风险 
度量 能 力 。 

信用 风险 是 金融 银行 业 面 对 的 主要 基本 风险 之 一 ， 保 障 金融 安全 需要 有 效 


地 管理 信用 风险 。 信 用 评分 卡 模型 是 一 种 对 客户 进行 信用 风险 评价 的 模型 方法 ， 


是 管控 金融 风险 的 决策 工具 。 该 类 模型 根据 客户 的 信用 历史 数据 为 其 划分 信用 


等 级 , 来 决定 其 金融 权限 。 传统 的 建立 信用 评分 卡 模型 方法 依靠 专家 经 验 , 效率 


低 且 生成 的 模型 不 够 完善 。 孔 祥 永 等 [184] 提出 一 种 基于 CE 的 自动 化 信用 风险 


模型 构建 方法 ， 能 够 显著 提高 建 模 效率 ， 可 以 同时 保证 模型 具 


有 高 预测 性 能 和 


释 的 客户 信用 特征 。 


可 解释 性 。 作 者 将 该 方法 在 真实 信用 卡 数据 上 与 专家 建 模 进 行 了 对 比 ， 实 验 结 
果 表 明 方 法 大 大 缩短 了 建 模 时 间 ， 且 能 够 得 到 媲美 专家 模型 的 预测 性 能 和 可 解 


P2P (Peer-to-Peer) 借贷 是 一 种 通过 互联 网 进行 集资 和 放贷 的 金融 模式 , 该 
类 金融 模式 的 信用 风险 主要 是 由 借贷 人 未 能 履行 还 款 义 务 造成 的 ， 对 集资 债权 
人 的 资金 安全 构成 了 巨大 风险 。 因 此 ， 如 何 准确 地 评估 借贷 方 的 信用 风险 是 一 
个 重要 问题 ， 通 过 借贷 数据 构建 个 人 信用 风险 模型 是 一 个 主要 的 解决 方法 。 彭 
35] K£ 提出 利用 CE 度量 风险 变量 和 个 人 数据 高 维特 征 之 间 的 非 线性 相关 


性 ， 用 以 选择 个 人 信用 风险 预测 模型 的 输入 特征 。 他 利用 美国 P2P 借贷 平台 


Lending Club 的 贷款 数据 展开 实证 研究 ， 对 比 了 CE 和 皮尔 逊 相关 系数 两 种 常 


预测 结果 。 


用 特征 选择 方法 ,发 现 CE 选择 的 非 线性 特征 在 XGBoost 模型 上 获得 了 更 好 的 


准确 地 预测 金融 产品 价格 可 以 帮助 投资 者 管理 风险 并 进行 投资 决策 ， 因 而 


建立 相关 预测 模型 是 研究 者 关心 的 重要 问题 之 一 。 由 于 4 


的 市 场 逻 辑 , 它们 的 价格 也 会 产生 相应 的 
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融 产品 之 间 存 在 内 在 
这 种 价 


因果 联动 效应 。 因 此， 可 以 利 月 


格 间 的 因果 关系 建立 比 传统 方法 更 准确 的 价格 预测 模型 。Zhang 等 [186] 
于 价格 间 因 果 关 系 的 迁移 学 习 框架 


种 
金融 产品 价格 之 间 的 因果 关系 , 以 选择 因 


提出 了 
于 CE 的 TE 方法 计算 不 同 
于 预测 果 变 量 价格 , 再 在 选 


， 利 用 
变量 价格 月 


择 的 基础 上 ， 提 出 了 用 于 训练 深度 学 


F 
将 算法 分 别 应 用 于 国际 主要 的 财经 指数 、 


习 模 型 的 学 习 


算法 以 得 到 预测 模型 。 他 们 
价格 和 农产品 期 货 价格 2010 


能 源 期 货 


类 价格 间 的 因果 关系 ， 在 此 基础 上 ， 利 月 


格 数据 上 均 给 出 了 较 同类 对 比 算法 更 好 的 预测 结 
流行 病 疫 情 对 人 群 健康 构成 严重 威胁 , 促使 社会 和 个 体 采取 应 对 
巨大 的 经 济 社会 影响 ， 特 别 是 对 和 
1 场 的 影响 是 一 个 重要 课题 ， 对 站 


疫情 应 对 进而 会 产生 
情 对 金融 
和 Syrek [187] 利用 CE 方法 研究 了 波兰 
相关 性 特征 ， 特 别 研究 了 2020 年 3 月 1 
14 个 板块 指数 之 间 的 相关 局 
与 2008 年 金融 危机 得 到 的 经 验 是 一 致 的 
验 相符 ， 而 传统 皮尔 偿 相关 得 到 的 结论 由 
以 度量 金融 市 场 变量 之 间 的 非 线 伯 


E 
FH 


7 


统计 独立 性 是 统计 学 和 机 器 学 习 领 域 的 基础 性 概念 ， 如 
是 该 领域 的 基本 问题 。Copula 理论 提 
的 边缘 函数 与 表示 统计 关联 
的 数学 形式 。 而 CE 理论 


whe 
通过 将 随机 变 
表示 任何 关联 怕 
度量 了 Copula 函数 表示 中 所 有 的 信 ， 


有 诸多 公理 性 属性 的 理想 的 统计 度量 工 


上 


里 


B= 


DH 


[uni 


\ 


至 2021 年 的 每 日 价格 数据 上 ， 结 果 发 现 ， 利 月 


E， 发 现 宣布 疫情 后 这 种 相关 必 


E 相 关 关 系 ， 验 证 了 CE 的 优越 性 。 


km 


` 


有 基于 CE 的 TE 方法 发 现 了 同 
的 模型 在 三 类 价 


该 迁移 学 习 框 架 得 到 


E. jut 
会 融 市 场 的 影响 。 研 究 疫 
和 场 利 益 主体 具有 现实 意义 。Gnurgul 
股票 市 场 指数 在 2019 新 冠 疫情 期 间 的 
3 日 波兰 疫情 发 生 当 天 WIG 指数 和 其 
FE 明显 增加 。 这 一 发 现 
。 他 们 还 发 现 CE 方法 得 到 的 结论 与 经 


上 不 符合 过 去 的 经 验 ， 这 是 因为 CE 可 


总 结 


= 


里 


可 表示 和 度量 统计 
表示 的 理论 工具 ， 
FE 的 Copula 函数 相 分 离 ， 得 到 了 
则 给 出 了 度量 统计 独立 性 的 概念 工具 ， 
， 也 就 是 相关 性 的 强度 。CE 是 一 种 具 


共 了 统计 相关 怕 


4 


= 


FA 


本 文 综述 了 CE 的 理论 和 应 用 ， 介 
的 定理 和 推论 ， 以 及 CE Rf 
CE 研究 的 最 新 进展 ， 包 括 其 在 统计 学 十 
量 选 择 、 因 果 发 现 、 系 统 辨识 、 时 延 佑 计 


ET, 
E 


Hy CE 基本 概念 定义 、 与 MI 等 价 性 


Et. MAT CE 的 非 参 数 估计 方法 。 本 文 介绍 了 


个 基本 问题 (结构 学 习 、 关 联 发 现 、 变 
、 域 自 适应 、 正 态 性 检验 、 双 样本 检验 


和 变 点 检测 等 ) 上 的 理论 应 用 ， 
应 用 对 应 的 深层 次 的 相关 性 和 因果 必 
独立 性 度量 框架 与 基于 核 函 


EZ 
ERI 


讨论 了 理论 应 月 
概念 
数 和 距离 的 相关 


之 间 的 内 在 联系 ， 探讨 了 这 些 
的 联系 ， 并 将 基于 CE 的 (条件 ) 
度量 框架 进行 了 对 比 ， 指 出 了 本 


之 间 


"| 


理论 框架 在 多 个 方面 的 理论 优越 性 。 


通 


过 仿真 和 实际 数据 实验 评估 验 证 了 基于 
CE 的 5 种 方法 相对 于 各 自 同类 方法 的 实际 优越 性 。 
本 文 综述 了 CE 在 理论 物理 学 、 天 体 物理 学 、 地 球 物理 学 、 理 论 化 学 、 


ML 


化 学 
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言 恩 学 、 材 料 学 、 水 文学 、 气 候 学 、 气 象 学 、 环 境 学、 生态 学 、 动 物 形 态 学 、 农 
学 、 认 知 神经 学 、 运 动 神经 学 、 计 算 神 经 学 、 心 理学 、 系 统 生 物 学 、 生 物 信息 学 、 
临床 诊断 学 、 老 年 医学 、 精 神 病 学 、 公 共 卫 生 学 、 经 济 学 、 管 理学 、 社 会 学 、 教 
育 学 、 计 算 语言 学 、 新 闻 传播 学 、 法 学 、 政 治学 、 军 事 学 、 情 报 学 ， 以 及 能 源 工 
程 、 食 品 工程 、 土 木 建 筑 、 交 通 运 输 、 制 造 工程 、 可 靠 性 工程 、 冶 金工 程 、 化 学 
工程 、 航 空 航天 、 兵 器 工程 、 车 辆 工程 、 电 子 工 程 、 通 信 工 程 、 高 性 能 计算 、 信 
息 安全 、 测 绘 允 感 、 海 洋 工程 和 金融 工程 等 学 科 领 域 的 实际 应 用 。 基 于 CE +i 
来 的 理论 和 计算 上 的 优势 ， 在 这 些 应 用 中 CE 被 用 来 分 析 和 度量 各 种 类 型 数据 
中 的 统计 关联 性 或 因果 性 ， 通 过 选择 变量 来 建立 模型 ， 以 及 作为 评价 指标 评价 
模型 ， 均 取得 了 良好 的 应 用 效果 。CE 作为 一 种 基础 性 工具 ， 不 仪 为 这 些 应 用 提 
供 了 基本 的 理论 和 方法 ， 也 为 应 用 中 各 种 新 方法 论 的 派生 提供 了 可 能 。 


民 


A 软件 实现 


本 文 所 述 的 CE 估计 算法 、TE 估计 算法 、 正 态 性 检验 和 双 样 本 检验 的 统 
计量 估计 算法 和 变 点 检测 算法 已 在 R 和 Python 语言 的 copent 算法 包 中 实 
现 上 99， 分别 在 CRAN 和 PyPI 上 共享: 


e CRAN https://cran.r-project.org/package=copent; 
。 PyPI https://pypi.org/project/copent/, 


相关 源码 见 作者 的 GitHub: stas //github. con/na]ienthu/. 
H, CE 估计 等 算法 的 第 三 方 软件 实现 包括 : 


° R 语言 的 cylcop 包 [60,287]; 


。 Python 语言 的 MLFinLab J |l 73] , ArbitrageLab tJ |174] pytorch-mighty 
y 8 8 


包 和 Polars-ds 包 s9}; 
。 Julia 语言 的 CopEnt .jl 包 和 CausalityTools.jl @ Ë91); 以 及 
。 Matlab 和 Python 语言 的 gcmi 包 (67,299). 
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